Tableau Bridge でTableau Cloud からのSpark のデータ連携を実現

古川えりか
古川えりか
コンテンツスペシャリスト
CData ODBC ドライバを使って、Tableau Cloud ダッシュボードにSpark のデータをTableau Bridge 経由でフィード。

Tableau Bridge は、データソースとのライブ接続を維持したままTableau Cloud にダッシュバードをパブリッシュ可能にします。本記事では、Tableau Bridge を使って、Spark のデータに連携するワークブックをデータ更新可能な状態でパブリッシュする方法を説明します。

CData ODBC drivers は、Tableau Cloud からSpark のデータにノーコードでのアクセスを実現します。ドライバーにはパフォーマンスを向上させるための効率的なデータ処理が組み込まれています。Spark からTableau Cloud に複雑なSQlクエリを発行すると、ドライバーはファイルタリング、集計などのクエリオペレーションでデータソース側でサポートされているものはSpark 側に、JOIN などのサポートされていないクエリはドライバーの内部SQL エンジンにて処理を行います。また、動的なメタデータクエリ機能が実装されており、Tableau からノーコードでSpark のデータのネイティブなデータ型を使ってデータを効率的に分析できます。

CData ODBC ドライバとは?

CData ODBC ドライバは、以下のような特徴を持ったリアルタイムデータ連携ソリューションです。

  1. Spark をはじめとする、CRM、MA、会計ツールなど多様なカテゴリの270種類以上のSaaS / オンプレミスデータソースに対応
  2. 多様なアプリケーション、ツールにSpark のデータを連携
  3. ノーコードでの手軽な接続設定
  4. 標準 SQL での柔軟なデータ読み込み・書き込み

CData ODBC ドライバでは、1.データソースとしてSpark の接続を設定、2.Tableau Bridge 側でODBC Driver との接続を設定、という2つのステップだけでデータソースに接続できます。以下に具体的な設定手順を説明します。

CData ODBC ドライバのインストールとSpark への接続設定

まずは、本記事右側のサイドバーからSparkSQL ODBC Driver の無償トライアルをダウンロード・インストールしてください。30日間無償で、製品版の全機能が使用できます。

接続プロパティの指定がまだの場合は、DSN (データソース名)で行います。Microsoft ODBC データソースアドミニストレーターを使ってODBC DSN を作成および設定できます。一般的な接続プロパティは以下のとおりです:

SparkSQL への接続

SparkSQL への接続を確立するには以下を指定します。

  • Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
  • Port:SparkSQL インスタンスへの接続用のポートに設定。
  • TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
  • AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

Databricks への接続

Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:必要な値は、「クラスター」に移動して目的のクラスターを選択し、 「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。

  • Server:Databricks クラスターのサーバーのホスト名に設定。
  • Port:443
  • TransportMode:HTTP
  • HTTPPath:Databricks クラスターのHTTP パスに設定。
  • UseSSL:True
  • AuthScheme:PLAIN
  • User:'token' に設定。
  • Password:パーソナルアクセストークンに設定(値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます)。

DSN を設定する際には、Max Rows プロパティを設定することをお勧めします。これにより取得される行数が制限され、パフォーマンスを向上させます。

Spark のデータをTableau ダッシュボードに設定

  1. 新しいワークブックで、データソース画面で、その他のデータベース(ODBC) を選択します。システムDSN であるCData SparkSQL Sys を選択します。
  2. [データベース]メニューでCData を選択します。
  3. [表]ボックスにテーブル名を入力、または[🔎]マーククリックして、テーブル一覧を表示させます。[新しいカスタムSQL]をクリックしてSQL クエリを入力することもできます。この記事ではCustomers テーブルを選択します。
  4. テーブルをJOIN エリアにドラッグします。複数のテーブルを選択することも可能で、ドライバーにビルトインされたSQL エンジンで複雑なデータリクエストでも処理が可能です。
  5. ワークシートタブを選択すると、カラムがディメンションとメジャーに区別されて表示されます。これらをダッシュボードで使ってビジュアライズを行います。
    Tableau で利用するテーブルを選択(Salesforce is shown.)

Tableau Bridge をサービスとして起動する

  1. [サーバー]メニューから[Tableau Bridge クライアントを起動]を選択します。
  2. サイト管理者権限でTableau Bridge にサインインします。
  3. プロンプトが出たら、データをパブリッシュするTableau Cloud サイトを選択します。Bridge クライアントが開き、システムトレーからアクセスできるようになります。
  4. デフォルトで、Tableau Bridge クライアントはApplication モードに設定されています。[Switch to service]を選択してライブ接続が扱えるようにします。
  5. Tableau Cloud サイトに管理者としてログインします。
  6. [設定]->[Bridge]をクリックします。 Tableau Cloud でのTableau Bridge 設定
  7. Bridge 設定では、[Enable Clients to Maintain Live Connections]で、[Enable Tableau Bridge clients to maintain live connections to on-premises data.]をチェックして有効化します。

リアルタイムデータソース接続を設定したTableau ダッシュボードをパブリッシュする

Tableau Bridge とTabelau Online 両方のデータ接続設定が完了したら、Tableau Cloud にワークブックをパブリッシュしましょう。 [サーバー]メニューから[ワークブックのパブリッシュ]をクリックし、ワークブックを指定します。

リアルタイムデータ接続を含むワークブックを公開 (Salesforce is shown.)

公開するワークブックを選択したら、公開設定でCData ODBC Driver for Spark がワークブックに個別のリアルタイムデータソースとして含まれるようにします。

  1. [データソース]で、オプションをクリックしてワークブックにデータソースを埋め込む編集を行います。
  2. パブリッシュタイプを[Publish Separately]に変更し、認証方法を選択します。
  3. [リアルタイムデータソースへの接続維持]を選択して、パブリッシュボタンを押して完了します。

パブリッシュされたワークブックは、[更新]ボタンを押すことでSpark のデータを更新することができます。

Spark からTableau Bridge へのデータ連携には、ぜひCData ODBC ドライバをご利用ください

このようにCData ODBC ドライバと併用することで、270を超えるSaaS、NoSQL データをコーディングなしで扱うことができます。30日の無償評価版が利用できますので、ぜひ自社で使っているクラウドサービスやNoSQL と合わせて活用してみてください。

CData ODBC ドライバは日本のユーザー向けに、UI の日本語化、ドキュメントの日本語化、日本語でのテクニカルサポートを提供しています。

はじめる準備はできましたか?

Apache Spark ODBC Driver の無料トライアルをダウンロードしてお試しください:

 ダウンロード

詳細:

Apache Spark Icon Apache Spark ODBC Driver お問い合わせ

Apache Spark ODBC Driver は、ODBC 接続をサポートするさまざまなアプリケーションからApache Spark データへの接続を実現するパワフルなツールです。

標準SQL とSpark SQL をマッピングして、SQL-92 で直接Apache Spark にアクセス。