CData Connect AI を経由してPower BI Service でDatabricks のデータをリアルタイムでビジュアライズ

加藤龍彦
加藤龍彦
デジタルマーケティング
CData Power BI コネクタとCData Connect を使用してDatabricks のデータをリアルタイムでPower BI のカスタムレポートに統合

Power BI を使えば、データを美しいビジュアルに可視化したり、重要な情報を整理してダッシュボード化できます。CData Connect AI と組み合わせると、ビジュアライゼーションやダッシュボードでの使用のためにDatabricks のデータにアクセスできます。この記事では、CData Connect を使用してDatabricks のリアルタイム接続を作成し、Databricks のデータをPower BI に接続してDatabricks のデータに関するレポートをPower BI で作成する方法を説明します。

Databricks データ連携について

CData を使用すれば、Databricks のライブデータへのアクセスと統合がこれまでになく簡単になります。お客様は CData の接続機能を以下の目的で利用しています:

  • Runtime バージョン 9.1 - 13.X から Pro および Classic Databricks SQL バージョンまで、すべてのバージョンの Databricks にアクセスできます。
  • あらゆるホスティングソリューションとの互換性により、お好みの環境で Databricks を使用し続けることができます。
  • パーソナルアクセストークン、Azure サービスプリンシパル、Azure AD など、さまざまな方法で安全に認証できます。
  • Databricks ファイルシステム、Azure Blob ストレージ、AWS S3 ストレージを使用して Databricks にデータをアップロードできます。

多くのお客様が、さまざまなシステムから Databricks データレイクハウスにデータを移行するために CData のソリューションを使用していますが、ライブ接続ソリューションを使用して、データベースと Databricks 間の接続をフェデレートしているお客様も多数います。これらのお客様は、SQL Server リンクサーバーまたは Polybase を使用して、既存の RDBMS 内から Databricks へのライブアクセスを実現しています。

一般的な Databricks のユースケースと CData のソリューションがデータの問題解決にどのように役立つかについては、ブログをご覧ください:What is Databricks Used For? 6 Use Cases


はじめに


Connect AI からDatabricks に接続する

CData Connect AI では、直感的なクリック操作ベースのインターフェースを使ってデータソースに接続できます。
  1. Connect AI にログインし、 Add Connection をクリックします。 Adding a Connection
  2. Add Connection パネルから「Databricks」を選択します。 データソースを選択
  3. 必要な認証プロパティを入力し、Databricks に接続します。

    Databricks 接続プロパティの取得・設定方法

    Databricks クラスターに接続するには、以下のプロパティを設定します。

    • Database:Databricks データベース名。
    • Server:Databricks クラスターのサーバーのホスト名
    • HTTPPath:Databricks クラスターのHTTP パス。
    • Token:個人用アクセストークン。この値は、Databricks インスタンスのユーザー設定ページに移動してアクセストークンタブを選択することで取得できます。
    Databricks インスタンスで必要な値は、クラスターに移動して目的のクラスターを選択し、Advanced Options の下にあるJDBC/ODBC タブを選択することで見つけることができます。

    Databricks への認証

    CData は、次の認証スキームをサポートしています。

    • 個人用アクセストークン
    • Microsoft Entra ID(Azure AD)
    • Azure サービスプリンシパル
    • OAuthU2M
    • OAuthM2M

    個人用アクセストークン

    認証するには、次を設定します。

    • AuthSchemePersonalAccessToken
    • Token:Databricks サーバーへの接続に使用するトークン。Databricks インスタンスのユーザー設定ページに移動してアクセストークンタブを選択することで取得できます。

    その他の認証方法については、ヘルプドキュメント の「はじめに」セクションを参照してください。

    接続の設定(Salesforce の表示)
  4. Create & Test をクリックします。
  5. Edit Databricks Connection ページのPermissions タブに移動し、ユーザーベースのアクセス許可を更新します。 権限を更新

接続が構成されたら、Power BI からDatabricks に接続できるようになります。

Connect AI Power BI コネクタをインストールする

バージョン: 2.112.603.0 (2022年12月)以降のバージョンのPower BI Desktop では、すでにCData Connect AI 用のMicrosoft 認定コネクタがPower BI Desktop に含まれています。Power BI Desktop で最初のデータセット設定が必要です。従来まではPower BI Desktop からデータソースの更新毎にデータセットを手動でパブリッシュもしくはオンプレミスGateway での定期リフレッシュが必要でした。今回のPower BI 提供のCData Connect 向けコネクタでは、一度Power BI Desktop からデータセットをパブリッシュした後のデータ更新はPower BI サービス(クラウド)上で実施できる点がポイントです! では、「データを取得」から「オンラインサービス」カテゴリを選び、「CData Connect AI」を選択します。

それより前のPower BI Desktop をご利用の場合には、CData Connect AI Power BI コネクタ をダウンロードしインストールします。インストールが完了すると、CData Connect AI を経由してPower BI のデータに接続できるようになります。

Installing the CData Connect AI Power BI Connector

Databricks テーブルをクエリ

以下のステップに従って、Databricks のデータをレポートにプルするクエリを作成します。

    「Power BI Desktop」を開いて「Get Data」->「Online Services」->「CData Connect AI」と進み、「Connect」をクリックします。 「Sign-in」をクリックしCData Connect AI のアカウントで認証します。 Authenticating with Connect AI
  1. サインイン後「Connect」をクリックします。 Connecting to Connect AI
  2. 「Navigator」ダイアログでテーブルを選択します。 The available tables.(Salesforce の表示)
  3. 「Load」をクリックしPower BI からDatabricks のデータの接続を確立します。

Databricks のデータをビジュアライゼーションを作成する

Power BI にデータを接続した後、「Fields」ペインのフィールドをキャンバスにドラッグすることで、「Report」ビューでデータビジュアライゼーションを作成できます。チャートタイプと、ビジュアライズするディメンションとメジャーを選択します。

Visualizing data in Power BI (Salesforce データの表示)

Power BI サービス(クラウド)から最新のDatabricks のデータに更新

ここからが2022年12月以降の認定コネクタの最大のキモになります。発行したPower BI サービスで使用できるDatabricks のデータを使ったレポートのデータをPower BI 側から最新のデータに更新が可能です。まずは右上のメニュー から「データセットの表示」をクリックします。

refreshing Connect AI from Power BI Service

まずは、データソースであるCData Connect AI にアクセスする資格を設定する必要がありますので、「ファイル」→「設定」をクリックします。レポートで使用しているデータセットをワークスペースから選択し、「データソースの資格情報」を開き、「資格情報を編集」の文字をクリックします。

Setting the rights to access Connect AI

クリックすると再度CData Connect AI へのサインインを求められます。

  1. 認証方法:OAuth2 を選択
  2. このデータソースのプライバシーレベルの設定:適切なレベルを設定

「サインイン」ボタンをクリックして、CData Connect AI のユーザー名とパスワードでサインインします。

Connecting to Connect AI

これで、Power BI サービスからConnect AI 経由でDatabricks のデータソースを最新の状態に更新することができます。「更新」→「今すぐ更新」をクリックするとデータを更新できます。このように簡単にPower BI サービス(クラウド)側から外部データソースであるDatabricks のデータをリアルタイムで更新して分析利用することができました。

データアプリケーションからDatabricks のデータへのリアルタイムアクセス

CData Connect AI を使用してPower BI からDatabricks のデータへの直接接続ができるようになりました。これで、Databricks を複製せずにより多くのデータをインポート、新しいビジュアライゼーションやレポートを作成することができます。

オンプレミスのBI やレポート、ETL、その他のデータアプリケーションから、250を超えるSaaS、ビッグデータ、NoSQL ソース(Databricks を含む)への直接のSQL データアクセスを取得するには、CData Connect ページにアクセスして無償トライアルを開始できます。

はじめる準備はできましたか?

CData Connect AI の詳細、または無料トライアルにお申し込みください:

無料トライアル お問い合わせ