Clear Analytics でSpark のデータを使ってチャートを作成

Jerod Johnson
Senior Technology Evangelist

Clear Analytics でSpark のデータを基にした動的なチャートを作成し、分析を実行。

CData ODBC ドライバー for Spark は、ODBC 標準を介してSpark のライブデータへのアクセスを可能にし、さまざまな BI、レポート、ETL ツールでSpark のデータを直接扱うことができます。この記事では、Microsoft Excel のアドインである Clear Analytics を使って、Spark に ODBC データソースとして接続し、Spark のデータを基にしたクエリ、テーブル、チャート（PivotTable を含む）を作成する方法を説明します。

Spark のデータに接続

ODBC データソース名の設定

まだ設定していない場合は、データソース名（DSN）で必要な接続プロパティを指定します。Microsoft ODBC データソースアドミニストレーターを使って DSN を作成・設定できます。これはドライバーインストールの最終ステップでも可能です。Microsoft ODBC データソースアドミニストレーターを使った DSN の作成と設定方法については、ヘルプドキュメントの「はじめに」を参照してください。

SparkSQL への接続

SparkSQL への接続を確立するには以下を指定します。

Server：SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
Port：SparkSQL インスタンスへの接続用のポートに設定。
TransportMode：SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
AuthScheme：使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

Databricks への接続

Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note：必要な値は、「クラスター」に移動して目的のクラスターを選択し、「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。

Server：Databricks クラスターのサーバーのホスト名に設定。
Port：443
TransportMode：HTTP
HTTPPath：Databricks クラスターのHTTP パスに設定。
UseSSL：True
AuthScheme：PLAIN
User：'token' に設定。
Password：パーソナルアクセストークンに設定（値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます）。

DSN を設定する際、Max Rows 接続プロパティを設定することもできます。これにより返される行数が制限され、レポートやビジュアライゼーションを作成する際のパフォーマンス向上に役立ちます。

Clear Analytics でデータソースを設定

Excel を開き、CLEAR ANALYTICS リボンに移動します。Data Manager を開きます。
データソースとして Database を選択します。
Set Connection セクションで、新しいデータベースを作成するオプションをクリックします。
データソースとして Microsoft ODBC Data Source を選択し、OK をクリックします。
ドロップダウンメニューから、先ほど設定した DSN を選択します。
Set Connection セクションに戻り、SQL Builder Provider として Standard (ANSI ODBC) Query Builder を選択して Next をクリックします。
Schema/Owner を選択し、Clear Analytics で使用するドメイン（テーブル）を選択します。
必要に応じて、テーブルやカラムの表示名と説明をカスタマイズしてデータオブジェクトを準備します。
CData ODBC ドライバーの大半では、ドメインにキー日付を設定する必要はありません。
Domain Relations セクションで、テーブル間のリレーション情報を追加します。
Domain Tree セクションで、データのグループを作成し、利用可能な項目をグループに追加します。
データのサマリーを確認し、Finish をクリックします。

Spark のデータでチャートを作成

これでSpark のデータを使ったチャートを作成する準備ができました。

新規クエリの作成

CLEAR ANALYTICS リボンの Repository をクリックします。
新しいクエリを作成します。
取得するカラムを選択します。
データの集計タイプを設定します（データを集計しない場合は空白のエントリを使用します）。
カラムを下のウィンドウにドラッグして、フィルタと数式を設定します。
クエリに名前を付けて Save をクリックします。

クエリレポートに基づいてチャートを作成

クエリを作成したら、レポートを実行してチャートを表示する準備ができました。

CLEAR ANALYTICS リボンの Report Explorer をクリックします。
Report Explorer ペインで、ツールバーの「New Report」アイコンをクリックします。
先ほど作成したクエリを選択します。
レポートに名前を付けて「Save and Execute」をクリックします。
Report Explorer 内の Results タブをクリックします。
レポートを展開し、チャートを Excel スプレッドシートにドラッグします。
表示される PivotChart ウィンドウで、フィールド（カラム）を Filters、Legends、Axis (Categories)、Values ウィンドウにドラッグします。

Clear Analytics で新しいデータソースを確立し、チャートを作成したら、Spark のデータの分析を始める準備ができました。ODBC Driver for Spark と Clear Analytics を使用すると、Spark からのライブデータを使って Excel でセルフサービス分析を実行できます。

はじめる準備はできましたか？

Apache Spark ODBC Driver の無料トライアルをダウンロードしてお試しください：

ダウンロード

詳細：

Apache Spark ODBC Driver お問い合わせ

Apache Spark ODBC Driver は、ODBC 接続をサポートするさまざまなアプリケーションからApache Spark データへの接続を実現するパワフルなツールです。

標準SQL とSpark SQL をマッピングして、SQL-92 で直接Apache Spark にアクセス。