Spark のデータから SSAS テーブルモデルを作成

Dibyendu Datta
Lead Technology Evangelist

CData ドライバーを使用してSpark のデータから SQL Server Analysis Services のテーブルモデルを構築する方法を解説します。

SQL Server Analysis Services（SSAS）は、意思決定支援やビジネス分析に使用される分析データエンジンです。Power BI、Excel、Reporting Services レポート、その他のデータビジュアライゼーションツールなど、ビジネスレポートやクライアントアプリケーション向けのエンタープライズグレードのセマンティックデータモデルを提供します。CData ODBC Driver for Apache Spark と組み合わせることで、Spark のデータからテーブルモデルを作成し、より深く高速なデータ分析を実現できます。

Spark のデータへの接続を作成

まだ行っていない場合は、ODBC DSN（データソース名）で接続プロパティを設定します。これはドライバーインストールの最後のステップです。Microsoft ODBC データソースアドミニストレーターを使用して ODBC DSN を作成・設定できます。

SparkSQL への接続

SparkSQL への接続を確立するには以下を指定します。

Server：SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
Port：SparkSQL インスタンスへの接続用のポートに設定。
TransportMode：SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
AuthScheme：使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

Databricks への接続

Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note：必要な値は、「クラスター」に移動して目的のクラスターを選択し、「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。

Server：Databricks クラスターのサーバーのホスト名に設定。
Port：443
TransportMode：HTTP
HTTPPath：Databricks クラスターのHTTP パスに設定。
UseSSL：True
AuthScheme：PLAIN
User：'token' に設定。
Password：パーソナルアクセストークンに設定（値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます）。

Spark のデータソースを作成

まず、Visual Studio で新しい Analysis Services テーブルプロジェクトを作成します。テーブルモデルデザイナーダイアログで、互換性レベル 1400 以上を選択してください。次に、プロジェクトに Spark のデータソースを作成します。

テーブルモデルエクスプローラーで Data Sources を右クリックし、「New Data Source」を選択します
Other タブから「ODBC」を選択し、「Connect」をクリックします
先ほど設定した DSN を選択します
認証オプションとして「Default or Custom」を選択し、「Connect」をクリックします

テーブルとリレーションシップの追加

データソースを作成したら、テーブルをインポートしてテーブル間のリレーションシップを定義します。

新しいデータソースを右クリックし、「Import New Tables」をクリックしてインポートするテーブルを選択します
テーブルのインポート後、「Relationships」を右クリックし、「Create Relationships」をクリックします
テーブルを選択し、外部キー、カーディナリティ、フィルタの方向を設定します

メジャーの作成

テーブルのインポートとリレーションシップの定義が完了したら、メジャーを作成します。

メジャーを作成するテーブルのカラムを選択します
Extensions メニューから「Columns」->「AutoSum」をクリックし、集計方法を選択します

モデルのデプロイ

メジャーを作成したら、モデルをデプロイする準備が整いました。ソリューションエクスプローラーでプロジェクトを右クリックし、「Properties」を選択してターゲットサーバーとデータベースを設定します。「Deployment Server」プロパティを設定し、「OK」をクリックします。

デプロイサーバーの設定後、「Build」メニューを開き、「Deploy Solution」をクリックします。これで SSAS インスタンスにSpark のデータのテーブルモデルが作成され、分析、レポート作成、表示の準備が整いました。CData ODBC Driver for Apache Spark の 30 日間無料トライアルをぜひお試しください。