Databricks(AWS)でHCL Domino のデータを処理・分析
Databricks は、Apache Spark を通じたデータ処理機能を提供するクラウドベースのサービスです。CData JDBC Driver と組み合わせることで、Databricks を使用してリアルタイムHCL Domino のデータに対してデータエンジニアリングとデータサイエンスを実行できます。この記事では、AWS でCData JDBC Driver をホストし、Databricks でリアルタイムHCL Domino のデータに接続して処理する方法を説明します。
最適化されたデータ処理が組み込まれたCData JDBC Driver は、リアルタイムHCL Domino のデータを扱う上で比類のないパフォーマンスを提供します。HCL Domino に複雑なSQL クエリを発行すると、ドライバーはフィルタや集計などのサポートされているSQL 操作をHCL Domino に直接プッシュし、サポートされていない操作(主にSQL 関数やJOIN 操作)は組み込みSQL エンジンを利用してクライアント側で処理します。組み込みの動的メタデータクエリを使用すると、ネイティブデータ型を使ってHCL Domino のデータを操作・分析できます。
CData JDBC Driver をDatabricks にインストール
Databricks でリアルタイムHCL Domino のデータを操作するには、Databricks クラスターにドライバーをインストールします。
- Databricks の管理画面に移動し、対象のクラスターを選択します。
- Libraries タブで「Install New」をクリックします。
- Library Source として「Upload」を選択し、Library Type として「Jar」を選択します。
- インストール場所(通常はC:\Program Files\CData[product_name]\lib)からJDBC JAR ファイル(cdata.jdbc.domino.jar)をアップロードします。
ノートブックでHCL Domino のデータにアクセス:Python
JAR ファイルをインストールしたら、Databricks でリアルタイムHCL Domino のデータを操作する準備が整いました。ワークスペースに新しいノートブックを作成します。ノートブックに名前を付け、言語としてPython を選択し(Scala も利用可能)、JDBC ドライバーをインストールしたクラスターを選択します。ノートブックが起動したら、接続を設定し、HCL Domino をクエリして、基本的なレポートを作成できます。
HCL Domino への接続を設定
JDBC Driver クラスを参照し、JDBC URL で使用する接続文字列を構築してHCL Domino に接続します。また、JDBC URL でRTK プロパティを設定する必要があります(Beta ドライバーを使用している場合を除く)。このプロパティの設定方法については、インストールに含まれるライセンスファイルを参照してください。
ステップ1:接続情報
driver = "cdata.jdbc.domino.DominoDriver" url = "jdbc:domino:RTK=5246...;URL=http://dominoserver:3002/;DatabaseScope=names;TableTypes=Tables;AuthScheme=OAuthPassword;User=MyUser;Password=MyPassword;"
組み込みの接続文字列デザイナー
JDBC URL の作成をサポートするために、HCL Domino JDBC Driver に組み込まれている接続文字列デザイナーが使用できます。JAR ファイルをダブルクリックするか、コマンドラインからJAR ファイルを実行します。
java -jar cdata.jdbc.domino.jar
接続プロパティを入力し、接続文字列をクリップボードにコピーします。
Domino への接続
それでは、Domino のデータに接続していきましょう。接続するには、以下のプロパティを設定してください。
- URL:Domino データベースをホスティングしているサーバーのホスト名またはIP アドレス。Domino データベースをホスティングしているサーバーのポートを含めます。例:http://sampleserver:1234/
- DatabaseScope:Domino Web UI でのスコープ名。CData 製品は、指定されたスコープに適合するスキーマのフォームとビューを公開します。Domino Admin UI で、サイドバーのScopes メニューを選択してください。このプロパティを既存のスコープ名に設定します
Domino での認証
続いて、認証方法を設定しましょう。Domino では、ログインクレデンシャル(OAuthPassword)またはMicrosoft Entra ID(AzureAD)のいずれかによる認証をサポートしています。
ログインクレデンシャル
ログインクレデンシャルで認証するには、以下のプロパティを設定してください:
- AuthScheme:OAuthPassword
- User:認証するDomino ユーザーのユーザー名
- Password:認証するDomino ユーザーに関連付けられたパスワード
ドライバーがログインクレデンシャルを使用して、自動的にOAuth トークン交換を実行します。
Microsoft Entra ID(Azure AD)
この認証方法は、Azure Active Directory をIdP として使用してJWT トークンを取得します。Azure Active Directory にカスタムのアプリケーションを作成し、それをIdP として設定する必要があります。詳しい手順については、ヘルプドキュメントの指示に従ってください。その後、以下のプロパティを設定します。
- AuthScheme:AzureAD
- InitiateOAuth:これをGETANDREFRESH に設定します。InitiateOAuth を使用すると、OAuth 交換の繰り返しやOAuthAccessToken の手動設定を避けることができます
- OAuthClientId:カスタムAzure AD アプリケーションの作成時に取得したクライアントID
- OAuthClientSecret:カスタムAzure AD アプリケーションの作成時に取得したクライアントシークレット
- CallbackURL:カスタムAzure AD アプリケーションの登録時に指定されたリダイレクトURI。例えば、https://localhost:33333
- AzureTenant:データにアクセスするために使用されるMicrosoft Online テナント。companyname.microsoft.com 形式の値またはテナントID のいずれかを指定してください
テナントID は、Azure ポータルのAzure Active Directory > プロパティページに表示されているディレクトリID と同じです。
HCL Domino のデータをロード
接続を設定したら、CData JDBC Driver と接続情報を使用して、HCL Domino のデータをDataFrame としてロードできます。
ステップ2:データの読み取り
remote_table = spark.read.format ( "jdbc" ) \ .option ( "driver" , driver) \ .option ( "url" , url) \ .option ( "dbtable" , "ByName") \ .load ()
HCL Domino のデータを表示
ロードしたHCL Domino のデータをdisplay 関数を呼び出して確認します。
ステップ3:結果の確認
display (remote_table.select ("Name"))
Databricks でHCL Domino のデータを分析
Databricks SparkSQL でデータを処理するには、ロードしたデータをTemp View として登録します。
ステップ4:ビューまたはテーブルを作成
remote_table.createOrReplaceTempView ( "SAMPLE_VIEW" )
Temp View を作成したら、SparkSQL を使用してHCL Domino のデータをレポート、ビジュアライゼーション、分析用に取得できます。
% sql SELECT Name, Address FROM SAMPLE_VIEW ORDER BY Address DESC LIMIT 5
HCL Domino からのデータは、対象のノートブックでのみ利用可能です。他のユーザーと共有したい場合は、テーブルとして保存します。
remote_table.write.format ( "parquet" ) .saveAsTable ( "SAMPLE_TABLE" )
CData JDBC Driver for HCL Domino の30日間無償トライアルをダウンロードして、Databricks でリアルタイムHCL Domino のデータの操作をはじめましょう。ご不明な点があれば、サポートチームにお問い合わせください。