OBIEE での Spark レポーティングとスタースキーマ
CData ODBC Driver for Spark は、データウェアハウスや直接レポーティングツールにSpark のデータへのリアルタイムアクセスを統合できる標準的なデータベースドライバーです。本記事では、データウェアハウスをバイパスして、Oracle Business Intelligence Enterprise Edition(OBIEE)に運用中のSpark のデータをインポートする方法を説明します。
Informatica PowerCenter などの ETL ツールとの ODBC 連携については、Knowledge Base を参照してください。Oracle Warehouse Builder への ETL ソリューションについては、Oracle ODBC Gateway とドライバーを使用して「Spark のデータにリモート Oracle データベースとしてアクセス」してください。
ODBC データソースとして Spark に接続
まだ設定していない場合は、ODBC DSN(データソース名)で接続プロパティを指定してください。これはドライバーインストールの最後のステップです。Microsoft ODBC データソースアドミニストレーターを使用して ODBC DSN を作成・設定できます。
SparkSQL への接続
SparkSQL への接続を確立するには以下を指定します。
- Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
- Port:SparkSQL インスタンスへの接続用のポートに設定。
- TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
- AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。
Databricks への接続
Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:必要な値は、「クラスター」に移動して目的のクラスターを選択し、 「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。
- Server:Databricks クラスターのサーバーのホスト名に設定。
- Port:443
- TransportMode:HTTP
- HTTPPath:Databricks クラスターのHTTP パスに設定。
- UseSSL:True
- AuthScheme:PLAIN
- User:'token' に設定。
- Password:パーソナルアクセストークンに設定(値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます)。
DSN を設定する際に、Max Rows 接続プロパティも設定することをお勧めします。これにより返される行数を制限でき、レポートやビジュアライゼーションを設計する際のパフォーマンス向上に特に効果的です。
Spark のメタデータをインポート
以下の手順に従って、OBIEE クライアントツールを使用して Spark のメタデータを OBIEE リポジトリにインポートしてください。その後、Spark のデータ をビジネスモデルに統合できます。
Administration Tool を開き、「File -> New Repository」をクリックします。
- Connection Type メニューで「ODBC 3.5」を選択し、CData DSN を選択します。
- Relational Sources オプションでインポートするメタデータタイプを選択し、Spark のテーブルを選択します。