Dataiku からリアルタイム SharePoint データを使って AI/ML モデルを構築

Dibyendu Datta
Lead Technology Evangelist

CData JDBC Driver for SharePoint を使って SharePoint データを Dataiku に接続。

Dataiku は、データの準備、分析、可視化、AI/ML モデルのデプロイメントに利用されるデータサイエンスおよび機械学習プラットフォームです。チームでの協業と効率的なデータドリブンな意思決定を可能にします。CData JDBC Driver for SharePoint と組み合わせることで、Dataiku は SharePoint のデータのデータ連携、データ準備、リアルタイム分析、そして信頼性の高いモデルデプロイメントをさらに強化します。

CData JDBC Driver は、最適化されたデータ処理機能を内蔵しており、リアルタイム SharePoint のデータとのやり取りにおいて比類のないパフォーマンスを発揮します。複雑な SQL クエリを SharePoint に発行すると、ドライバーはフィルタや集計などのサポートされている SQL 操作を SharePoint に直接プッシュし、サポートされていない操作（多くの場合、SQL 関数や JOIN 操作）は内蔵の SQL エンジンを使用してクライアント側で処理します。動的メタデータクエリ機能が組み込まれているため、ネイティブのデータ型を使って SharePoint のデータを操作・分析できます。

この記事では、Dataiku DSS（Data Science Studio）プラットフォームで CData JDBC Driver for SharePoint を使って SharePoint に簡単に連携する方法を紹介します。データの準備やカスタム AI/ML モデルの構築を行いましょう。

SharePoint データ連携について

CData を使用すれば、SharePoint のライブデータへのアクセスと統合がこれまでになく簡単になります。お客様は CData の接続機能を以下の目的で利用しています：

Windows SharePoint Services 3.0、Microsoft Office SharePoint Server 2007 以降、SharePoint Online を含む、幅広い SharePoint バージョンのデータにアクセスできます。
非表示カラムとルックアップカラムのサポートにより、SharePoint のすべてにアクセスできます。
フォルダを再帰的にスキャンして、すべての SharePoint データのリレーショナルモデルを作成できます。
SQL ストアドプロシージャを使用して、ドキュメントや添付ファイルをアップロード・ダウンロードできます。

多くのお客様は、SharePoint データをデータベースやデータウェアハウスに統合するために CData ソリューションを活用していますが、Power BI、Tableau、Excel などのお気に入りのデータツールと SharePoint データを統合しているお客様もいます。

お客様が CData の SharePoint ソリューションで問題を解決している方法については、ブログをご覧ください：Drivers in Focus: Collaboration Tools

はじめに

Dataiku DSS 環境の準備

このセクションでは、先に紹介した Dataiku を SharePoint のデータ向けにセットアップする方法を説明します。事前に、お使いのオペレーティングシステムに対応した Dataiku DSS（オンプレミス版）をインストールしておいてください。

CData JDBC Driver for SharePoint のインストール

まず、Dataiku と同じマシンに CData JDBC Driver for SharePoint をインストールします。JDBC Driver は以下のパスにインストールされます：

C:\Program Files\CData[product_name] 20xx\lib\cdata.jdbc.sharepoint.jar

Dataiku DSS での JDBC Driver 接続設定

Dataiku で CData JDBC Driver を使用するには、新しい SQL データベース接続を作成し、DSS の接続設定で JDBC Driver の JAR ファイルを追加する必要があります。

Dataiku DSS プラットフォームにログインします。ブラウザでローカルに開きます（例：localhost:11200）。
プラットフォームの右上にある Navigate to other sections of Dataiku メニューをクリックし、Administration を選択します。
Connections タブを選択します。
Connections 画面で New Connections ボタンをクリックします。
スクロールして Other SQL databases を選択します。
SharePoint に接続するための JDBC URL を生成します。jdbc:sharepoint: で始まり、その後にセミコロン区切りの接続文字列プロパティを続けます。

Microsoft SharePoint への接続

URL の設定：

Microsoft SharePoint では、2つの範囲でデータを操作できます。グローバルなMicrosoft SharePoint サイト全体を対象にするか、個々のサイトのみを対象にするかを選択できます。

グローバルなMicrosoft SharePoint サイトですべてのリストおよびドキュメントを操作したい場合は、URL 接続プロパティをサイトコレクションURL に設定しましょう。以下のような形式です。
```
https://teams.contoso.com
```
個々のサイトのリストおよびドキュメントのみを扱いたい場合は、URL 接続プロパティを個々のサイトURL に設定してください。以下のような形式です。
```
https://teams.contoso.com/TeamA
```
続いて、お使いの環境に適した認証プロパティを設定していきましょう。詳細な設定手順については、 href="/kb/help/" target="_blank">ヘルプドキュメントの「はじめに」をご参照ください。

Microsoft SharePoint Online

SharePointEdition を"SharePoint Online" に設定し、User およびPassword にはSharePoint へのログオンで使用するクレデンシャル（例：Microsoft Online Services アカウントのクレデンシャル）を設定します。

Microsoft SharePoint Online は様々なクラウドベースアーキテクチャをサポートしており、それぞれ異なる認証スキームが利用できます。
- Microsoft Entra ID（Azure AD）
- ADFS、Okta、OneLogin、またはPingFederate SSO ID プロバイダーを介したシングルサインオン（SSO）
- Azure MSI
- Azure パスワード
- OAuthJWT
- SharePointOAuth
Microsoft SharePoint オンプレミス

Microsoft SharePoint オンプレミスでは、多くのオンプレミス環境に対応した認証方式をサポートしています。
- Windows（NTLM）
- Kerberos
- ADFS
- 匿名アクセス
まずSharePointEdition を"SharePoint On-Premises" に設定しましょう。

Windows（NTLM）認証

これは最も一般的な認証方式です。そのため、CData 製品ではNTLM をデフォルトとして使用するよう事前設定されています。Windows のUser およびPassword を設定するだけで接続できます。

組み込みの接続文字列デザイナー

JDBC URL の作成には、SharePoint JDBC Driver に組み込まれている接続文字列デザイナーを使用できます。JAR ファイルをダブルクリックするか、コマンドラインから実行してください。
```
java -jar cdata.jdbc.sharepoint.jar
```
接続プロパティを入力し、接続文字列をクリップボードにコピーします。

一般的な JDBC URL は次のようになります：
```
jdbc:sharepoint:User=myuseraccount;Password=mypassword;Auth Scheme=NTLM;URL=http://sharepointserver/mysite;SharePointEdition=SharePointOnPremise;
```
New SQL database (JDBC) connection 画面で、New connection name フィールドに名前を入力し、基本パラメータを指定します：
- JDBC Driver Class：cdata.jdbc.sharepoint.SharePointDriver
- JDBC URL：前のステップで取得した JDBC 接続 URL
- Driver jars directory：システム上で JAR ファイルがインストールされているフォルダパス
次に、SQL dialect を選択します。ここでは「SQL Server」を選択しています。Create をクリックします。接続が成功すると、「Connection OK」というメッセージが表示されます。
Data Catalog ウィンドウが表示されます。Connection to browse、Restrict to catalog、Restrict to schema ドロップダウンから目的の接続、カタログ、スキーマを選択し、List Tables をクリックします。Dataiku プラットフォームに必要なテーブルがすべて一覧表示されます。
一覧からテーブルを選択し、Preview をクリックしてテーブルデータを表示します。Close をクリックしてウィンドウを閉じます。

新しいプロジェクトの作成

Dataiku DSS プラットフォームでデータフローの準備、ダッシュボードの作成、SharePoint のデータの分析、AI/ML モデルの構築を行うには、まず新しいプロジェクトを作成する必要があります。

Navigate to other sections of Dataiku メニューから Projects を選択します。
Projects 画面で New Project をクリックし、+ Blank Project を選択します。
New Project ウィンドウで、Name と Project Key を入力します。Create をクリックすると、新しいプロジェクトのダッシュボードが開きます。
プロジェクト画面上部のメニューから Notebooks を選択します。
+ Create Your First Notebook ドロップダウンメニューをクリックし、Write your own オプションを選択します。
New Notebook ウィンドウで SQL を選択します。
Connection ドロップダウンから必要な接続を選択し、Notebook Name フィールドに名前を入力します。