Jaspersoft Studio から Databricks のデータに接続
この記事では、CData JDBC Driver for Databricks を使って、Jaspersoft Studio からDatabricks に標準JDBC データソースとして接続する方法を説明します。標準のJaspersoft ウィザードを使ってDatabricks へのSQL クエリを作成していきます。クエリは直接Databricks API に実行されるため、Databricks のデータへのリアルタイム接続が可能になります。
Databricks データ連携について
CData を使用すれば、Databricks のライブデータへのアクセスと統合がこれまでになく簡単になります。お客様は CData の接続機能を以下の目的で利用しています:
- Runtime バージョン 9.1 - 13.X から Pro および Classic Databricks SQL バージョンまで、すべてのバージョンの Databricks にアクセスできます。
- あらゆるホスティングソリューションとの互換性により、お好みの環境で Databricks を使用し続けることができます。
- パーソナルアクセストークン、Azure サービスプリンシパル、Azure AD など、さまざまな方法で安全に認証できます。
- Databricks ファイルシステム、Azure Blob ストレージ、AWS S3 ストレージを使用して Databricks にデータをアップロードできます。
多くのお客様が、さまざまなシステムから Databricks データレイクハウスにデータを移行するために CData のソリューションを使用していますが、ライブ接続ソリューションを使用して、データベースと Databricks 間の接続をフェデレートしているお客様も多数います。これらのお客様は、SQL Server リンクサーバーまたは Polybase を使用して、既存の RDBMS 内から Databricks へのライブアクセスを実現しています。
一般的な Databricks のユースケースと CData のソリューションがデータの問題解決にどのように役立つかについては、ブログをご覧ください:What is Databricks Used For? 6 Use Cases
はじめに
Databricks のデータにJDBC データソースとして接続
Jaspersoft Studio でJDBC データソースを作成するには、データアダプタを作成します。
- Repository Explorer ビューで、Data Adapters ノードを右クリックし、Create Data Adapter をクリックします。
- Database JDBC Connection を選択します。
- ドライバーのわかりやすい名前を入力します。
- Driver Classpath タブで、Add をクリックします。表示されたダイアログで、インストールディレクトリのlib サブフォルダに移動し、ドライバーJAR を選択します。
- Database Location タブで、JDBC ドライバーのクラス名を入力します:cdata.jdbc.databricks.DatabricksDriver
- JDBC URL を入力します。
Databricks 接続プロパティの取得・設定方法
Databricks クラスターに接続するには、以下のプロパティを設定します。
- Database:Databricks データベース名。
- Server:Databricks クラスターのサーバーのホスト名。
- HTTPPath:Databricks クラスターのHTTP パス。
- Token:個人用アクセストークン。この値は、Databricks インスタンスのユーザー設定ページに移動してアクセストークンタブを選択することで取得できます。
Databricks への認証
CData は、次の認証スキームをサポートしています。
- 個人用アクセストークン
- Microsoft Entra ID(Azure AD)
- Azure サービスプリンシパル
- OAuthU2M
- OAuthM2M
個人用アクセストークン
認証するには、次を設定します。
- AuthScheme:PersonalAccessToken。
- Token:Databricks サーバーへの接続に使用するトークン。Databricks インスタンスのユーザー設定ページに移動してアクセストークンタブを選択することで取得できます。
その他の認証方法については、ヘルプドキュメント の「はじめに」セクションを参照してください。
組み込みの接続文字列デザイナー
JDBC URL の構成をサポートするために、Databricks JDBC Driver に組み込まれている接続文字列デザイナーを使用してください。JAR ファイルをダブルクリックするか、コマンドラインからjar ファイルを実行します。
java -jar cdata.jdbc.databricks.jar
接続プロパティに値を入力して、接続文字列をクリップボードにコピーします。
JDBC URL を構成する際に、Max Rows 接続プロパティも設定できます。これにより返される行数が制限され、レポートやビジュアライゼーションの設計時のパフォーマンス向上に役立ちます。
以下はDatabricks の一般的なJDBC URL です:
jdbc:databricks:Server=127.0.0.1;HTTPPath=MyHTTPPath;User=MyUser;Token=MyToken;
Databricks のデータでレポートを作成
以下のステップに従って、Databricks へのSQL クエリを作成します。これはシンプルなレポートの基礎となります。
- File -> New Jasper Report をクリックします。テンプレートを選択し、親プロジェクトを選択して、レポートファイルを指定します。
- Data Adapter メニューで、前のセクションで作成したデータアダプタを選択します。
- Diagram タブで、テーブルをボックスにドラッグして、使用したいカラムをクリックします。または、Texts タブでカスタムクエリを入力します。例:
SELECT City, CompanyName FROM Customers WHERE Country = 'US'
- データセットに含めるフィールドを選択します。この例では、すべてのフィールドを使用します。
- Group By ステップをスキップして、ウィザードを完了します。
Preview タブで、現在のDatabricks のデータでレポートがどのように表示されるかをプレビューできます。
チャートを作成
以下のセクションでは、独自のSQL クエリに紐づいたチャートを作成する方法を説明します。リモートデータソースからデータを取得する際、特定のレポートオブジェクト用に作成したより制限的なクエリを使用すると、パフォーマンスが向上する場合があります。
DataSet を作成
以下のステップに従って、チャートを入力する新しいデータセットを作成します。
- レポートの編集エリアで、Design タブをクリックします。
- Outline ビューで、レポートのルートノードを右クリックし、Create Dataset をクリックします。
- データセットの名前を入力し、接続またはデータソースから新しいデータセットを作成するオプションをクリックします。
- Data Adapter メニューで、最初のセクションで作成したデータアダプタを選択します。
- 次のようなクエリを入力します:
SELECT City, CompanyName FROM Customers WHERE Country = 'US'
- データセットに含めるフィールドを選択します。この例ではCity とCompanyName を使用します。
- フィールドによるグループ化のステップをスキップして、ウィザードを完了します。
チャートを構成
データセットを追加した後、以下のステップに従ってチャートウィザードでカラム値をチャートの軸にマッピングします。
- Outline ビューでSummary ノードをクリックします。Properties ビューで、高さを400ピクセルに設定します。Summary バンドはレポートの最後に印刷されます。
- パレットからチャートをSummary にドラッグします。チャートウィザードが表示されます。
- チャートのタイプを選択します。この例では棒グラフを使用します。
- Dataset メニューで、チャート用に作成したデータセットを選択します。
- Dataset タブで、マスターレポートの入力に使用されたものと同じJDBC 接続を使用するオプションを選択します。
- チャートのシリーズを指定します:Series メニューの横にあるボタンをクリックし、Add をクリックします。表示されたExpression Editor で、City カラムをダブルクリックして、式を$F{City} に設定します。
y 軸の値を指定します:チャートウィザードで、Value ボックスの横にあるボタンをクリックします。Expression Editor で、CompanyName をダブルクリックして、式を$F{CompanyName} に設定します。
- シリーズ要素のラベルを指定します:チャートウィザードで、Label ボックスの横にあるボタンをクリックします。Expression Editor で、City カラムをダブルクリックして、式を$F{City} に設定します。必要に応じて、以下の式のようにカラムの型を文字列に変換します:
$F{City}.toString()
- チャートを拡大してSummary セクションを埋めます:チャートを右クリックして、Size to Container -> Fit Both をクリックします。
レポートの実行
他のJDBC データソースと同様に、Databricks のデータでレポートを生成できるようになりました。Jaspersoft Studio はレポートの実行ごとにデータを定期的に更新します。