Tableau で Spark のデータのデータを可視化

Jerod Johnson
Senior Technology Evangelist

Tableau Desktop BI ツールで Spark のデータに接続。

CData Drivers for Spark を使用すると、標準データアクセス方法でビジネスインテリジェンスツール（Tableau など）と Spark のデータを接続できます。 CData JDBC Driver for Apache Spark は Windows およびMacOS 上のTableau からの接続をサポートします。この記事では、スキーマの検出と Spark のデータデータへのリアルタイムクエリの実行方法について説明します。

NOTE: Tableau 2020.3 以上をご利用の場合は、CData Tableau Connector もご利用いただけます。 Tableau Cloud で Spark のデータに接続する場合は、CData Connect AI をご利用ください。

Tableau で Spark に接続

Tableau を起動する前に、.jar ファイルが正しいフォルダに配置されていることを確認してください。

Windows: C:\Program Files\Tableau\Drivers
MacOS: ~/Library/Tableau/Drivers

.jar ファイルを配置したら、すぐに接続を確立できます。

Tableau を起動します。
サーバーへ で その他 を選択します。
その他のデータベース (JDBC) を選択します。
URL フィールドに JDBC 接続文字列を入力します。

SparkSQL への接続

SparkSQL への接続を確立するには以下を指定します。

Server：SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
Port：SparkSQL インスタンスへの接続用のポートに設定。
TransportMode：SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
AuthScheme：使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

Databricks への接続

Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note：必要な値は、「クラスター」に移動して目的のクラスターを選択し、「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。

Server：Databricks クラスターのサーバーのホスト名に設定。
Port：443
TransportMode：HTTP
HTTPPath：Databricks クラスターのHTTP パスに設定。
UseSSL：True
AuthScheme：PLAIN
User：'token' に設定。
Password：パーソナルアクセストークンに設定（値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます）。

組み込みの接続文字列デザイナー

JDBC URL の構成を簡単にするには、Spark JDBC Driver に組み込まれている接続文字列デザイナーをご利用ください。.jar ファイルをダブルクリックするか、コマンドラインから実行します。

Windows の場合:

java -jar 'C:\Program Files\CData[product_name]\lib\cdata.jdbc.sparksql.jar'

MacOS の場合:

java -jar cdata.jdbc.sparksql.jar

接続プロパティを設定し、接続文字列をクリップボードにコピーします。

組み込みの接続文字列デザイナーで JDBC URL を生成（Salesforce の例）

JDBC URL を構成する際に、Max Rows 接続プロパティの設定をお勧めします。返される行数が制限されるため、特にレポートやビジュアライゼーションの設計時にパフォーマンスが向上します。

以下は、デザイナーで作成したサンプル URL です。

jdbc:sparksql:Server=127.0.0.1;

サインイン をクリックします。

スキーマの検出とデータクエリ

データベース プルダウンメニューから CData を選択します。
スキーマ プルダウンメニューから CData を選択します。
テーブルを結合エリアにドラッグします。複数のテーブルを含めることができます。

今すぐ更新 または 自動更新 を選択します。「今すぐ更新」はデータソースの最初の10,000 行をプレビューします（行数はRows テキストボックスで変更可能）。「自動更新」はプレビューエリアの変更を自動的に反映します。
「接続」メニューで ライブ オプションを選択すると、Tableau にデータのコピーをロードせず、リアルタイムデータを直接操作できます。
ワークシートのタブをクリックします。カラムはデータ型に応じて「ディメンション」と「メジャー」に分類されます。CData ドライバーはデータ型を自動で検出するため、Tableau の強力なデータ処理および可視化機能を活用できます。