RunMyProcess DSEC を使用して DigitalSuite Studio で Databricks のデータ に接続
CData JDBC Driver for Databricks は JDBC 標準を実装しており、BI からIDE まで幅広いアプリケーションから Databricks への接続を可能にします。この記事では、Arkobi Digital RunMyProcess の DSEC から Databricks のデータ に接続し、RunMyProcess で Databricks に接続する方法を説明します。
Databricks データ連携について
CData を使用すれば、Databricks のライブデータへのアクセスと統合がこれまでになく簡単になります。お客様は CData の接続機能を以下の目的で利用しています:
- Runtime バージョン 9.1 - 13.X から Pro および Classic Databricks SQL バージョンまで、すべてのバージョンの Databricks にアクセスできます。
- あらゆるホスティングソリューションとの互換性により、お好みの環境で Databricks を使用し続けることができます。
- パーソナルアクセストークン、Azure サービスプリンシパル、Azure AD など、さまざまな方法で安全に認証できます。
- Databricks ファイルシステム、Azure Blob ストレージ、AWS S3 ストレージを使用して Databricks にデータをアップロードできます。
多くのお客様が、さまざまなシステムから Databricks データレイクハウスにデータを移行するために CData のソリューションを使用していますが、ライブ接続ソリューションを使用して、データベースと Databricks 間の接続をフェデレートしているお客様も多数います。これらのお客様は、SQL Server リンクサーバーまたは Polybase を使用して、既存の RDBMS 内から Databricks へのライブアクセスを実現しています。
一般的な Databricks のユースケースと CData のソリューションがデータの問題解決にどのように役立つかについては、ブログをご覧ください:What is Databricks Used For? 6 Use Cases
はじめに
EnterpriseConnect Agent のセットアップ
RunMyProcess ドキュメントの EnterpriseConnect ページに従って、EnterpriseConnect Agent を設定します。
JDBC Adapter のセットアップ
JDBC Adapter のセクションでは、JDBC を使用して RDBMS に接続する手順が説明されています。手順に従って JDBC.config ファイルを開きます。
- CData JDBC Driver for Databricks 用の JSON エントリを作成します。例:
Databricks = { "sqlDriver" : "...", "sqlSource" : "...", "sqlDriverPath" : "..." } - "sqlDriver" フィールドに CData JDBC Driver のクラス名を設定します。例:
cdata.jdbc.databricks.DatabricksDriver - "sqlSource" フィールドに Databricks に接続するための JDBC URL を設定します。例:
jdbc:databricks:Server=127.0.0.1;HTTPPath=MyHTTPPath;User=MyUser;Token=MyToken;組み込みの接続文字列デザイナー
JDBC URL の作成には、Databricks JDBC Driver に組み込まれている接続文字列デザイナーをご利用ください。JAR ファイルをダブルクリックするか、コマンドラインから JAR ファイルを実行します。
java -jar cdata.jdbc.databricks.jar
接続プロパティを入力し、接続文字列をクリップボードにコピーします。
Databricks 接続プロパティの取得・設定方法
Databricks クラスターに接続するには、以下のプロパティを設定します。
- Database:Databricks データベース名。
- Server:Databricks クラスターのサーバーのホスト名。
- HTTPPath:Databricks クラスターのHTTP パス。
- Token:個人用アクセストークン。この値は、Databricks インスタンスのユーザー設定ページに移動してアクセストークンタブを選択することで取得できます。
Databricks への認証
CData は、次の認証スキームをサポートしています。
- 個人用アクセストークン
- Microsoft Entra ID(Azure AD)
- Azure サービスプリンシパル
- OAuthU2M
- OAuthM2M
個人用アクセストークン
認証するには、次を設定します。
- AuthScheme:PersonalAccessToken。
- Token:Databricks サーバーへの接続に使用するトークン。Databricks インスタンスのユーザー設定ページに移動してアクセストークンタブを選択することで取得できます。
その他の認証方法については、ヘルプドキュメント の「はじめに」セクションを参照してください。
- "sqlDriverPath" フィールドに CData JDBC Driver JAR ファイルの名前を設定します。例:
cdata.jdbc.databricks.jar
JDBC.config ファイルの例
#DBAgent Configuration
Databricks = {"sqlDriver" : "cdata.jdbc.databricks.DatabricksDriver", "sqlSource" = "jdbc:databricks:Server=127.0.0.1;HTTPPath=MyHTTPPath;User=MyUser;Token=MyToken;","sqlDriverPath" = "cdata.jdbc.databricks.jar" }
JDBC ドライバー JAR ファイル(cdata.jdbc.databricks.jar)を unified-adapter-[version].jar と同じディレクトリに配置します。
注意:CData ライセンスファイル(cdata.jdbc.databricks.lic)も同じディレクトリに配置してください。ライセンスは製品がインストールされているマシンの一意の識別子に基づいて生成されるため、ファイルを別のマシンに配置する場合はオフラインアクティベーションが必要になります。
DigitalSuite EnterpriseConnect Agent の起動
Windows では、Windows サービスから RunMyProcess DigitalSuite EnterpriseConnect Agent を起動します。コマンドラインでアプリケーションを起動する場合は、RunMyProcess ドキュメントの Starting the EnterpriseConnect Agent を参照してください。
JDBC Adapter の起動
runAdapter.bat から JDBC Adapter を起動します。Adapter が起動したら、エージェントアドレス(例:127.0.0.1:8080)を通じてアプリケーションにアクセスできます。以下は Windows でコマンドを実行した例です。
... > java -Djava.util.logging.config.file=./log.properties -cp lib/* org.runmyprocess.sec2.AdapterHandler : 2021-06-09 14:37:58|INFO|correlationId=|Searching for config file... 2021-06-09 14:37:58|INFO|correlationId=|Adapter Handler started with [JDBC] configuration 2021-06-09 14:37:59|INFO|correlationId=|agent address: 127.0.0.1:8080 2021-06-09 14:38:00.251:INFO::ConnectionThread: Logging initialized @1820ms to org.eclipse.jetty.util.log.StdErrLog 2021-06-09 14:38:00|INFO|correlationId=|onConnect() websocket connection between Agent and Adapter established
DigitalSuite EnterpriseConnect Agent と JDBC Adapter が起動したら、ブラウザで http://localhost:(指定したポート番号)/ にアクセスして、以下のページを開きます。
Postman や cURL などのツールを使用して JDBC Adapter の接続確認を行います。ここでは Postman を使用して HTTP POST リクエストを送信します。
RequestHeader を以下のように設定します:
Content-Type application/json
RequestBody を以下のように設定します:
{
"protocol":"JDBC",
"data":{
"DBType":"Databricks",
"sqlUsername":"",
"sqlPassword":"",
"sqlStatement":"SELECT * FROM Customers"
}
}
JDBC.config ファイルに認証情報が含まれている場合、sqlUsername と sqlPassword は空のままにできます。テーブル名が不明な場合は、SELECT * FROM sys_tables リクエストを使用してテーブルの一覧を取得できます。
ステータスが 200 で、ボディに JSON 形式の Databricks のデータ データが含まれていれば、リクエストは成功です。
DigitalSuite Studio で DSEC Agent を介して Databricks に接続
DigitalSuite Studio プロジェクトを作成し、プロジェクト内に Provider を作成します。
- URL:JDBC Agent にアクセスするための URL(例:http:localhost:8080/)
- Authentication Scheme:Login/password
- Login:application.properties ファイルの agent.user の値
- Password:application.properties ファイルの agent.password の値
- Secured:チェックを入れる
- Use DigitalSuite EnterpriseConnect:チェックを入れる
- With domain:application.properties ファイルの agent.domain の値
次に、Provider 内に Connector を作成します。
- Connector URL:空のままにする
- Architecture:REST/XML-RPC
- Method:POST
- Result format:JSON
- Accept media type:application/json
- Character set:Automatic
- Content:JDBC Adapter で使用した Request body と同じ内容
- Content type: application/json
JDBC Adapter で Request body として使用した JSON データ:
{
"protocol":"JDBC",
"data":{
"DBType":"Databricks",
"sqlUsername":"",
"sqlPassword":"",
"sqlStatement":"SELECT * FROM Customers"
}
}
Launch Test を開いてテストを実行します。右側のペインの Result に Databricks のデータ データが表示されれば、テストは成功です。
これで、DSEC を介して RunMyProcess DigitalSuite Studio で Databricks のデータ を使用できるようになりました。
サポートされる SQL コマンドの詳細については、ヘルプドキュメントの「SQL Compliance」セクションを参照してください。テーブルの詳細については、「Data Model」セクションを参照してください。