Hive のデータを IBM SPSS Modeler にシームレスにインポート

Mohsin Turki
Technical Marketing Engineer

CData ODBC Driver を使用して Hive のデータを IBM SPSS Modeler に統合し、リアルタイムのインサイトと高度なデータ分析を実現します。

IBM SPSS Modeler は、組織がデータから価値あるインサイトを抽出できる強力なデータマイニング・予測分析プラットフォームです。CData ODBC Driver for Apache Hive を介してHive のデータを SPSS Modeler に接続することで、高度なデータマイニング、予測モデリング、統計分析のためのリアルタイムアクセスを活用できます。

このガイドでは、IBM SPSS Modeler をHive のデータに接続し、シームレスなデータのインポート、準備、分析を行う手順を説明します。CData ODBC Driver for Apache Hive を使用して、IBM SPSS Modeler でHive のデータの可能性を最大限に引き出し、実用的なインサイトを得ましょう。

概要

手順の概要は以下のとおりです：

ODBC ドライバーの設定：CData ODBC Driver for Apache Hive で必要な接続プロパティを入力し、Hive のデータへの接続を設定します。
SPSS Modeler での ODBC 接続のセットアップ：IBM SPSS Modeler で、設定済みの DSN を選択して ODBC 接続を確立します。
データのインポートと処理：Hive のデータを SPSS Modeler にインポートし、データの確認、フィルタリング、変換、準備を行って、予測分析や統計モデリングに活用します。

CData ODBC Driver を使用した Hive DSN の設定

まず、CData ODBC Driver を使用してシステムにHive のデータ用の DSN（データソース名）を設定します。こちらから全機能を備えた 30 日間の無料トライアルをダウンロードしてインストールしてください。

インストールが完了したら、ODBC データソースアドミニストレーターを起動します：

Windows の場合：スタートメニューで ODBC データソースアドミニストレーター を検索してアプリケーションを開きます。
Mac の場合：アプリケーションからユーティリティを開き、ODBC Manager を選択します。
Linux の場合：コマンドラインから ODBC Data Source Administrator を起動するか、インストールされている場合は unixODBC を使用します。

起動したら、CDataHive のデータSource をダブルクリックし、接続に必要な値を入力します：

Apache Hive への接続を確立するには以下を指定します。

Server：HiveServer2 をホストするサーバーのホスト名またはIP アドレスに設定。
Port：HiveServer2 インスタンスへの接続用のポートに設定。
TransportMode：Hive サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
AuthScheme：使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。
CData 製品においてTLS/SSL を有効化するには、UseSSL をTrue に設定します