Apache Spark でDynamics 365 のデータをSQL で操作する方法

杉本和也
リードエンジニア

CData JDBC ドライバーを使用して、Apache Spark でDynamics 365 にデータ連携。

Apache Spark は大規模データ処理のための高速エンジンです。CData JDBC Driver for Dynamics365 と組み合わせると、Spark はリアルタイムでDynamics 365 のデータに連携して処理ができます。本記事では、Spark シェルに接続してDynamics 365 をクエリする方法について解説します。

CData JDBC Driver は、最適化されたデータ処理がドライバーに組み込まれているため、リアルタイムDynamics 365 と対話するための高いパフォーマンスを提供します。Dynamics 365 に複雑なSQL クエリを発行すると、ドライバーはフィルタや集計など、サポートされているSQL操作を直接Dynamics 365 にプッシュし、組込みSQL エンジンを使用してサポートされていない操作（SQL 関数やJOIN 操作）をクライアント側で処理します。組み込みの動的メタデータクエリを使用すると、ネイティブデータ型を使用してDynamics 365 を操作して分析できます。

CData JDBC Driver for Dynamics365 をインストール

まずは、本記事右側のサイドバーからDynamics365 JDBC Driver の無償トライアルをダウンロード・インストールしてください。30日間無償で、製品版の全機能が使用できます。

Spark Shell を起動してDynamics 365 のデータに接続

ターミナルを開き、Spark shell でCData JDBC Driver for Dynamics365 JAR file をjars パラメータに設定します:
```
$ spark-shell --jars /CData/CData JDBC Driver for Dynamics365/lib/cdata.jdbc.dynamics365.jar
```
Shell でJDBC URL を使ってDynamics 365 に接続し、SQL Context load() function でテーブルを読み込みます。
Dynamics 365 接続プロパティの取得・設定方法

Microsoft Dynamics 365 への接続

Microsoft Dynamics 365 ドライバーは、以下のMicrosoft Dynamics 365 エディションへの接続をサポートしています。
- CustomerService
- FieldService
- FinOpsOnline （デフォルト）
- FinOpsOnPremise
- HumanResources
- Marketing
- ProjectOperations
- Sales
Notes：
- Supply Chain Management はFinance and Operations と同一です。これらのいずれかに接続するには、Edition をFinOpsOnline またはFinOpsOnPremise のいずれかに設定します。
- Microsoft Dynamics 365 Business Central については、個別のMicrosoft Dynamics 365 Business Central ドライバーを使用してください。
サポートされているMicrosoft Dynamics 365 エディションのいずれか接続するには、次のパラメータを設定します。
- OrganizationURL：お使いのMicrosoft Dynamics 365 組織のURL。例えば、https://orgcb42e1d0.crm.dynamics.com。
- Edition：上記のエディション一覧に示すとおり。
Microsoft Dynamics 365 への認証

Microsoft Dynamics 365 は、Microsoft Entra ID（Azure AD）、Azure サービスプリンシパル、Azure マネージドID（MSI）を経由する認証をサポートします。これらはすべてOAuth 規格に基づきます。認証方法の詳細は、ヘルプドキュメントを参照してください。

組み込みの接続文字列デザイナー

JDBC 接続文字列URL の作成には、Dynamics 365 JDBC Driver にビルトインされたデザイナを使用できます。JAR ファイルをダブルクリックするか、コマンドラインでJAR ファイルを実行するとデザイナが開きます。
```
java -jar cdata.jdbc.dynamics365.jar
```
接続プロパティを入力し、接続文字列をクリップボードにコピーします。
```
scala> val dynamics365_df = spark.sqlContext.read.format("jdbc").option("url", "jdbc:dynamics365:OrganizationUrl=https://myaccount.operations.dynamics.com/;Edition=Sales;").option("dbtable","GoalHeadings").option("driver","cdata.jdbc.dynamics365.Dynamics365Driver").load()
```
接続が完了し、データがロードされたら、テーブルスキーマが表示されます。
Dynamics 365 をテンポラリーテーブルとして登録します:
```
scala> dynamics365_df.registerTable("goalheadings")
```
データに対して、次のようなカスタムSQL クエリを実行します。
```
scala> dynamics365_df.sqlContext.sql("SELECT GoalHeadingId, Name FROM GoalHeadings WHERE Name = MyAccount").collect.foreach(println)
```
コンソールで、次のようなDynamics 365 のデータを取得できました！これでDynamics 365 との連携は完了です。