Tableau で Databricks のデータ のデータを可視化
CData Drivers for Databricks を使用すると、標準データアクセス方法でビジネスインテリジェンスツール(Tableau など)と Databricks のデータを接続できます。 CData JDBC Driver for Databricks は Windows およびMacOS 上のTableau からの接続をサポートします。この記事では、スキーマの検出と Databricks のデータ データへのリアルタイムクエリの実行方法について説明します。
NOTE: Tableau 2020.3 以上をご利用の場合は、CData Tableau Connector もご利用いただけます。 Tableau Cloud で Databricks のデータ に接続する場合は、CData Connect AI をご利用ください。
Databricks データ連携について
CData を使用すれば、Databricks のライブデータへのアクセスと統合がこれまでになく簡単になります。お客様は CData の接続機能を以下の目的で利用しています:
- Runtime バージョン 9.1 - 13.X から Pro および Classic Databricks SQL バージョンまで、すべてのバージョンの Databricks にアクセスできます。
- あらゆるホスティングソリューションとの互換性により、お好みの環境で Databricks を使用し続けることができます。
- パーソナルアクセストークン、Azure サービスプリンシパル、Azure AD など、さまざまな方法で安全に認証できます。
- Databricks ファイルシステム、Azure Blob ストレージ、AWS S3 ストレージを使用して Databricks にデータをアップロードできます。
多くのお客様が、さまざまなシステムから Databricks データレイクハウスにデータを移行するために CData のソリューションを使用していますが、ライブ接続ソリューションを使用して、データベースと Databricks 間の接続をフェデレートしているお客様も多数います。これらのお客様は、SQL Server リンクサーバーまたは Polybase を使用して、既存の RDBMS 内から Databricks へのライブアクセスを実現しています。
一般的な Databricks のユースケースと CData のソリューションがデータの問題解決にどのように役立つかについては、ブログをご覧ください:What is Databricks Used For? 6 Use Cases
はじめに
Tableau で Databricks に接続
Tableau を起動する前に、.jar ファイルが正しいフォルダに配置されていることを確認してください。
- Windows: C:\Program Files\Tableau\Drivers
- MacOS: ~/Library/Tableau/Drivers
.jar ファイルを配置したら、すぐに接続を確立できます。
- Tableau を起動します。
- サーバーへ で その他 を選択します。
- その他のデータベース (JDBC) を選択します。
- URL フィールドに JDBC 接続文字列を入力します。
- Database:Databricks データベース名。
- Server:Databricks クラスターのサーバーのホスト名。
- HTTPPath:Databricks クラスターのHTTP パス。
- Token:個人用アクセストークン。この値は、Databricks インスタンスのユーザー設定ページに移動してアクセストークンタブを選択することで取得できます。
- 個人用アクセストークン
- Microsoft Entra ID(Azure AD)
- Azure サービスプリンシパル
- OAuthU2M
- OAuthM2M
- AuthScheme:PersonalAccessToken。
- Token:Databricks サーバーへの接続に使用するトークン。Databricks インスタンスのユーザー設定ページに移動してアクセストークンタブを選択することで取得できます。
- サインイン をクリックします。
Databricks 接続プロパティの取得・設定方法
Databricks クラスターに接続するには、以下のプロパティを設定します。
Databricks への認証
CData は、次の認証スキームをサポートしています。
個人用アクセストークン
認証するには、次を設定します。
その他の認証方法については、ヘルプドキュメント の「はじめに」セクションを参照してください。
組み込みの接続文字列デザイナー
JDBC URL の構成を簡単にするには、Databricks JDBC Driver に組み込まれている接続文字列デザイナーをご利用ください。.jar ファイルをダブルクリックするか、コマンドラインから実行します。
Windows の場合:
java -jar 'C:\Program Files\CData[product_name]\lib\cdata.jdbc.databricks.jar'
MacOS の場合:
java -jar cdata.jdbc.databricks.jar
接続プロパティを設定し、接続文字列をクリップボードにコピーします。
JDBC URL を構成する際に、Max Rows 接続プロパティの設定をお勧めします。返される行数が制限されるため、特にレポートやビジュアライゼーションの設計時にパフォーマンスが向上します。
以下は、デザイナーで作成したサンプル URL です。
jdbc:databricks:Server=127.0.0.1;HTTPPath=MyHTTPPath;User=MyUser;Token=MyToken;
スキーマの検出とデータクエリ
- データベース プルダウンメニューから CData を選択します。
- スキーマ プルダウンメニューから CData を選択します。
- テーブルを結合エリアにドラッグします。複数のテーブルを含めることができます。
- 今すぐ更新 または 自動更新 を選択します。「今すぐ更新」はデータソースの最初の10,000 行をプレビューします(行数はRows テキストボックスで変更可能)。「自動更新」はプレビューエリアの変更を自動的に反映します。
- 「接続」メニューで ライブ オプションを選択すると、Tableau にデータのコピーをロードせず、リアルタイムデータを直接操作できます。
- ワークシートのタブをクリックします。カラムはデータ型に応じて「ディメンション」と「メジャー」に分類されます。CData ドライバーはデータ型を自動で検出するため、Tableau の強力なデータ処理および可視化機能を活用できます。
- ディメンション または メジャー エリアからフィールドを 行 または 列 にドラッグします。Tableau がカラムまたは行のヘッダーを作成します。
- 表示形式 タブからグラフの種類を選択します。選択したグラフが Tableau に表示されます。
CData JDBC Driver for Databricks と Tableau を使用して、Databricks のデータ に対する堅牢なビジュアライゼーションとレポートを簡単に作成できます。30日間の無償トライアルをダウンロードして、今すぐお試しください。