Amazon QuickSight で MySQL 接続を使用して Databricks のデータにアクセス

Jerod Johnson
Jerod Johnson
Senior Technology Evangelist
Amazon QuickSight で MySQL 接続を使用して Databricks に接続し、Databricks のデータ のビジュアライゼーションを構築する方法を紹介します。

Amazon QuickSight を使用すると、AWS データソース、アップロードしたファイル、クラウド上の他のデータベースからビジュアライゼーションの構築、分析の実行、インサイトの取得を素早く行うことができます。CData SQL Gateway と組み合わせることで、オンプレミスとクラウドの両方で 250種類以上のビッグデータ、NoSQL、SaaS ソースに対して同じ機能を利用できます。本記事では、SQL Gateway と CData ODBC Driver for Databricks を使用して、Amazon QuickSight の MySQL 接続経由でDatabricks のデータにアクセスする方法を説明します。直接クエリを使用したリアルタイムアクセス、または SPICE へのデータインポートのどちらも可能です。

Databricks データ連携について

CData を使用すれば、Databricks のライブデータへのアクセスと統合がこれまでになく簡単になります。お客様は CData の接続機能を以下の目的で利用しています:

  • Runtime バージョン 9.1 - 13.X から Pro および Classic Databricks SQL バージョンまで、すべてのバージョンの Databricks にアクセスできます。
  • あらゆるホスティングソリューションとの互換性により、お好みの環境で Databricks を使用し続けることができます。
  • パーソナルアクセストークン、Azure サービスプリンシパル、Azure AD など、さまざまな方法で安全に認証できます。
  • Databricks ファイルシステム、Azure Blob ストレージ、AWS S3 ストレージを使用して Databricks にデータをアップロードできます。

多くのお客様が、さまざまなシステムから Databricks データレイクハウスにデータを移行するために CData のソリューションを使用していますが、ライブ接続ソリューションを使用して、データベースと Databricks 間の接続をフェデレートしているお客様も多数います。これらのお客様は、SQL Server リンクサーバーまたは Polybase を使用して、既存の RDBMS 内から Databricks へのライブアクセスを実現しています。

一般的な Databricks のユースケースと CData のソリューションがデータの問題解決にどのように役立つかについては、ブログをご覧ください:What is Databricks Used For? 6 Use Cases


はじめに


Databricks のデータに接続

まだ行っていない場合は、データソース名(DSN)で必要な接続プロパティの値を指定してください。組み込みの Microsoft ODBC データソースアドミニストレーターを使用して DSN を設定できます。これはドライバーインストールの最後のステップでもあります。Microsoft ODBC データソースアドミニストレーターを使用して DSN を作成・設定する方法については、ヘルプドキュメントの「はじめに」の章を参照してください。

Databricks 接続プロパティの取得・設定方法

Databricks クラスターに接続するには、以下のプロパティを設定します。

  • Database:Databricks データベース名。
  • Server:Databricks クラスターのサーバーのホスト名
  • HTTPPath:Databricks クラスターのHTTP パス。
  • Token:個人用アクセストークン。この値は、Databricks インスタンスのユーザー設定ページに移動してアクセストークンタブを選択することで取得できます。
Databricks インスタンスで必要な値は、クラスターに移動して目的のクラスターを選択し、Advanced Options の下にあるJDBC/ODBC タブを選択することで見つけることができます。

Databricks への認証

CData は、次の認証スキームをサポートしています。

  • 個人用アクセストークン
  • Microsoft Entra ID(Azure AD)
  • Azure サービスプリンシパル
  • OAuthU2M
  • OAuthM2M

個人用アクセストークン

認証するには、次を設定します。

  • AuthSchemePersonalAccessToken
  • Token:Databricks サーバーへの接続に使用するトークン。Databricks インスタンスのユーザー設定ページに移動してアクセストークンタブを選択することで取得できます。

その他の認証方法については、ヘルプドキュメント の「はじめに」セクションを参照してください。

DSN を設定する際に、Max Rows 接続プロパティも設定することをお勧めします。これにより返される行数を制限でき、レポートやビジュアライゼーションを設計する際のパフォーマンス向上に特に効果的です。

SQL Gateway を設定

SQL Gateway 概要を参照して、Databricks のデータ を仮想 MySQL データベースとして接続を設定してください。クライアントからの MySQL リクエストをリッスンする MySQL リモーティングサービスを設定します。サービスは SQL Gateway UI で設定できます。

SQL Gateway で MySQL リモーティングサービスを作成(Salesforce の例)

QuickSight から SQL Gateway に接続するには、インターネット接続可能なマシンで SQL Gateway を実行する必要があります。SQL Gateway を設定した後、以下の情報をメモしておいてください。

  • SQL Gateway をホストしているマシンの IP アドレスまたはドメイン名
  • MySQL サービスのデータソース名(通常は CData Databricks Sys)
  • MySQL サービスのポート番号
  • サービスへのアクセス権を持つ SQL Gateway ユーザーの資格情報

リモートアクセスの設定

ODBC Driver とリモーティングサービスがオンプレミスにインストールされている(Amazon QuickSight からアクセスできない)場合は、リバース SSH トンネリング機能を使用してリモートアクセスを有効にできます。詳細な手順については、Knowledge Base の記事「SQL Gateway SSH トンネリング機能」を参照してください。

QuickSight で Databricks に接続

Databricks ODBC Driver 用に MySQL サービスを設定したら、QuickSight でデータに接続する準備が整いました。QuickSight コンソールにログインし、「Manage Data」をクリックしてから「New Data Set」をクリックし、データソースとして MySQL を選択します。


SQL Gateway で設定した Databricks 用の MySQL サービスの値を使用してデータセットを設定します(データベース名には DSN を使用してください)。接続を検証し、「Create Data Source」をクリックします。


QuickSight で Databricks のデータを可視化

本記事では、データビジュアライゼーションにカスタム SQL クエリを使用します。「Edit/Preview Data」をクリックし、表示される Data Prep 画面で以下の手順に従います。

  1. データセットに名前を付けます(例:Customers)。
  2. データを QuickSight SPICE にインポートする場合は SPICE オプションをクリックします。そうでない場合は、QuickSight がデータを直接クエリします。
  3. Tables メニューの下で「Switch to Custom SQL Tool」をクリックします。
    • SQL クエリに名前を付けます。
    • カスタム SQL クエリを入力します。例:
      SELECT City, CompanyName FROM Customers
    • 「Finish」をクリックします。
  4. 「Save & Visualize」をクリックします。


データセットを保存したら、ビジュアライゼーションを設定できます。可視化するカラムを選択し、ビジュアルタイプを選択します。ビジュアライゼーションは、名前からデータの集計方法までカスタマイズできます。


CData ODBC Driver for Databricks と SQL Gateway を使用すると、Amazon QuickSight でDatabricks のデータのデータビジュアライゼーションの構築や分析を簡単に行うことができます。オンプレミスのデータに AWS QuickSight からアクセスする方法など、ご質問がありましたらサポートチームまでお問い合わせください。

はじめる準備はできましたか?

Databricks ODBC Driver の無料トライアルをダウンロードしてお試しください:

 ダウンロード

詳細:

Databricks Icon Databricks ODBC Driver お問い合わせ

Databricks ODBC Driver は、ODBC 接続をサポートする各種ツールからDatabricks へのシームレスな連携を実現します。

Databricks に使い慣れたデータベースのように標準ODBC インターフェースで読み書き。