Dataiku からリアルタイム SharePoint Excel Services データを使って AI/ML モデルを構築

Dibyendu Datta
Dibyendu Datta
Lead Technology Evangelist
CData JDBC Driver for SharePoint Excel Services を使って SharePoint Excel Services データを Dataiku に接続。

Dataiku は、データの準備、分析、可視化、AI/ML モデルのデプロイメントに利用されるデータサイエンスおよび機械学習プラットフォームです。チームでの協業と効率的なデータドリブンな意思決定を可能にします。CData JDBC Driver for SharePoint Excel Services と組み合わせることで、Dataiku は SharePoint Excel Services のデータ のデータ連携、データ準備、リアルタイム分析、そして信頼性の高いモデルデプロイメントをさらに強化します。

CData JDBC Driver は、最適化されたデータ処理機能を内蔵しており、リアルタイム SharePoint Excel Services のデータ とのやり取りにおいて比類のないパフォーマンスを発揮します。複雑な SQL クエリを SharePoint Excel Services に発行すると、ドライバーはフィルタや集計などのサポートされている SQL 操作を SharePoint Excel Services に直接プッシュし、サポートされていない操作(多くの場合、SQL 関数や JOIN 操作)は内蔵の SQL エンジンを使用してクライアント側で処理します。動的メタデータクエリ機能が組み込まれているため、ネイティブのデータ型を使って SharePoint Excel Services のデータ を操作・分析できます。

この記事では、Dataiku DSS(Data Science Studio)プラットフォームで CData JDBC Driver for SharePoint Excel Services を使って SharePoint Excel Services に簡単に連携する方法を紹介します。データの準備やカスタム AI/ML モデルの構築を行いましょう。

Dataiku DSS 環境の準備

このセクションでは、先に紹介した Dataiku を SharePoint Excel Services のデータ 向けにセットアップする方法を説明します。事前に、お使いのオペレーティングシステムに対応した Dataiku DSS(オンプレミス版)をインストールしておいてください。

CData JDBC Driver for SharePoint Excel Services のインストール

まず、Dataiku と同じマシンに CData JDBC Driver for SharePoint Excel Services をインストールします。JDBC Driver は以下のパスにインストールされます:

C:\Program Files\CData[product_name] 20xx\lib\cdata.jdbc.excelservices.jar

Dataiku DSS での JDBC Driver 接続設定

Dataiku で CData JDBC Driver を使用するには、新しい SQL データベース接続を作成し、DSS の接続設定で JDBC Driver の JAR ファイルを追加する必要があります。

  1. Dataiku DSS プラットフォームにログインします。ブラウザでローカルに開きます(例:localhost:11200)。
  2. プラットフォームの右上にある Navigate to other sections of Dataiku メニューをクリックし、Administration を選択します。
  3. Connections タブを選択します。
  4. Connections 画面で New Connections ボタンをクリックします。
  5. スクロールして Other SQL databases を選択します。
  6. SharePoint Excel Services に接続するための JDBC URL を生成します。jdbc:excelservices: で始まり、その後にセミコロン区切りの接続文字列プロパティを続けます。

    ワークブックへの接続

    どちらのSharePoint エディションをお使いでも、File を Excel ワークブックに設定してください。このパスは以下のプロパティからの相対パスになります。

    • Library:デフォルトではShared Documents ライブラリが使用されます。このプロパティを使って、組織内の別のドキュメントライブラリを指定してみてください。例えば、OneDrive for Business に接続する場合は、このプロパティを"Documents" に設定します。
    • Folder:このプロパティを使って、ライブラリ内のサブフォルダへのパスを指定できます。パスはLibrary で指定されたライブラリ名に関連します。

    テーブルとしてのスプレッドシートデータへの接続

    CData 製品では、基底API で利用可能なオブジェクトに基づいて、使用可能なテーブルを検出していきます。

    API では異なるAPI オブジェクトを表示します。スプレッドシートの構成とSharePoint のバージョンに基づいてAPI を選択しましょう。

    • OData: OData API を使用すると、Excel で[挿入]->[テーブル]をクリックして作成されたExcel テーブルオブジェクト(範囲やスプレッドシートではありません)から定義されたテーブルにアクセスできます。OData API に接続する際、ワークブックにテーブルオブジェクトが定義されていない場合は、CData 製品がテーブルを返さないことがあります。テーブルとしてスプレッドシートまたは範囲に接続するには、UseRESTAPI をtrue に設定してください。
    • REST: REST API を使用すると、Excel テーブルオブジェクト、範囲、およびスプレッドシートから定義されたテーブルへアクセスできます。これがデフォルトの API です。範囲およびスプレッドシートから多数の行をリクエストすることは REST API によって制限されており、CData 製品では返される行数をデフォルトで 100 に制限しています。また CData 製品では、デフォルトで1行目からカラム名を検出します。これを無効にするには、Header を設定してください。

    DefineTables を追加設定すると、Excel の範囲の構文を使用して、範囲に基づいてテーブルを定義できます。大きすぎる範囲は、API によって制限されます。

    SharePoint オンプレミスへの接続

    URL をサーバー名もしくはIP アドレスに設定しましょう。さらに、SharePointVersion と認証値を設定します。

    SharePoint OnPremises を認証するには、AuthScheme を認証タイプに設定し、必要に応じてUserPassword を設定してください。

    Note:SharePoint On-Premises 2010 に接続する場合は、 UseRESTAPI をtrue に設定する必要があります。

      Windows(NTLM)

      最も一般的な認証タイプです。CData 製品では NTLM をデフォルトとして使用するよう事前設定されています。Windows のUserPassword を設定して接続してください。

      その他の認証方法については、ヘルプドキュメントの「はじめに」をご覧ください。

      組み込みの接続文字列デザイナー

      JDBC URL の作成には、SharePoint Excel Services JDBC Driver に組み込まれている接続文字列デザイナーを使用できます。JAR ファイルをダブルクリックするか、コマンドラインから実行してください。

      java -jar cdata.jdbc.excelservices.jar
      

      接続プロパティを入力し、接続文字列をクリップボードにコピーします。

      一般的な JDBC URL は次のようになります:

      jdbc:excelservices:URL=https://myorg.sharepoint.com;User=admin@myorg.onmicrosoft.com;Password=password;File=Book1.xlsx;
      
  7. New SQL database (JDBC) connection 画面で、New connection name フィールドに名前を入力し、基本パラメータを指定します:
    • JDBC Driver Class:cdata.jdbc.excelservices.ExcelServicesDriver
    • JDBC URL:前のステップで取得した JDBC 接続 URL
    • Driver jars directory:システム上で JAR ファイルがインストールされているフォルダパス

    次に、SQL dialect を選択します。ここでは「SQL Server」を選択しています。Create をクリックします。接続が成功すると、「Connection OK」というメッセージが表示されます。

  8. Data Catalog ウィンドウが表示されます。Connection to browseRestrict to catalogRestrict to schema ドロップダウンから目的の接続、カタログ、スキーマを選択し、List Tables をクリックします。Dataiku プラットフォームに必要なテーブルがすべて一覧表示されます。
  9. 一覧からテーブルを選択し、Preview をクリックしてテーブルデータを表示します。Close をクリックしてウィンドウを閉じます。

新しいプロジェクトの作成

Dataiku DSS プラットフォームでデータフローの準備、ダッシュボードの作成、SharePoint Excel Services のデータ の分析、AI/ML モデルの構築を行うには、まず新しいプロジェクトを作成する必要があります。

  1. Navigate to other sections of Dataiku メニューから Projects を選択します。
  2. Projects 画面で New Project をクリックし、+ Blank Project を選択します。
  3. New Project ウィンドウで、NameProject Key を入力します。Create をクリックすると、新しいプロジェクトのダッシュボードが開きます。
  4. プロジェクト画面上部のメニューから Notebooks を選択します。
  5. + Create Your First Notebook ドロップダウンメニューをクリックし、Write your own オプションを選択します。
  6. New Notebook ウィンドウで SQL を選択します。
  7. Connection ドロップダウンから必要な接続を選択し、Notebook Name フィールドに名前を入力します。

接続のテスト

SharePoint Excel Services 接続をテストして SharePoint Excel Services のデータ を分析するには、クエリコンパイラでクエリを記述し、Run をクリックします。クエリ結果やフィルタリングされた SharePoint Excel Services のデータ の結果が画面に表示されます。

おわりに

CData JDBC Driver for SharePoint Excel Services の 30日間無償トライアル をダウンロードして、Dataiku と連携し、SharePoint Excel Services のデータ からカスタム AI/ML モデルを簡単に構築しましょう。

ご質問があれば、お気軽に サポートチーム までお問い合わせください。

はじめる準備はできましたか?

SharePoint Excel Services Driver の無料トライアルをダウンロードしてお試しください:

 ダウンロード

詳細:

SharePoint Excel Services Icon SharePoint Excel Services JDBC Driver お問い合わせ

SharePoint サーバーでホストされているリアルタイムなExcel スプレッドシートコンテンツを組み込んだパワフルなJava アプリケーションを短時間・低コストで作成して配布できます。