Spark のデータを IBM SPSS Modeler にシームレスにインポート

Mohsin Turki
Technical Marketing Engineer

CData ODBC Driver を使用して Spark のデータを IBM SPSS Modeler に統合し、リアルタイムのインサイトと高度なデータ分析を実現します。

IBM SPSS Modeler は、組織がデータから価値あるインサイトを抽出できる強力なデータマイニング・予測分析プラットフォームです。CData ODBC Driver for Apache Spark を介してSpark のデータを SPSS Modeler に接続することで、高度なデータマイニング、予測モデリング、統計分析のためのリアルタイムアクセスを活用できます。

このガイドでは、IBM SPSS Modeler をSpark のデータに接続し、シームレスなデータのインポート、準備、分析を行う手順を説明します。CData ODBC Driver for Apache Spark を使用して、IBM SPSS Modeler でSpark のデータの可能性を最大限に引き出し、実用的なインサイトを得ましょう。

概要

手順の概要は以下のとおりです：

ODBC ドライバーの設定：CData ODBC Driver for Apache Spark で必要な接続プロパティを入力し、Spark のデータへの接続を設定します。
SPSS Modeler での ODBC 接続のセットアップ：IBM SPSS Modeler で、設定済みの DSN を選択して ODBC 接続を確立します。
データのインポートと処理：Spark のデータを SPSS Modeler にインポートし、データの確認、フィルタリング、変換、準備を行って、予測分析や統計モデリングに活用します。

CData ODBC Driver を使用した Spark DSN の設定

まず、CData ODBC Driver を使用してシステムにSpark のデータ用の DSN（データソース名）を設定します。こちらから全機能を備えた 30 日間の無料トライアルをダウンロードしてインストールしてください。

インストールが完了したら、ODBC データソースアドミニストレーターを起動します：

Windows の場合：スタートメニューで ODBC データソースアドミニストレーター を検索してアプリケーションを開きます。
Mac の場合：アプリケーションからユーティリティを開き、ODBC Manager を選択します。
Linux の場合：コマンドラインから ODBC Data Source Administrator を起動するか、インストールされている場合は unixODBC を使用します。

起動したら、CDataSpark のデータSource をダブルクリックし、接続に必要な値を入力します：

SparkSQL への接続

SparkSQL への接続を確立するには以下を指定します。

Server：SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
Port：SparkSQL インスタンスへの接続用のポートに設定。
TransportMode：SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
AuthScheme：使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

Databricks への接続

Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note：必要な値は、「クラスター」に移動して目的のクラスターを選択し、「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。

Server：Databricks クラスターのサーバーのホスト名に設定。
Port：443
TransportMode：HTTP
HTTPPath：Databricks クラスターのHTTP パスに設定。
UseSSL：True
AuthScheme：PLAIN
User：'token' に設定。
Password：パーソナルアクセストークンに設定（値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます）。