RapidMiner からSharePoint Excel Services のデータに連携
この記事では、CData JDBC Driver for ExcelServices をRapidMiner のプロセスと簡単に統合する方法を示します。この記事では、CData JDBC Driver for ExcelServices を使用してSharePoint Excel Services をRapidMiner のプロセスに転送します。
RapidMiner のSharePoint Excel Services にJDBC Data Source として接続する
以下のステップに従ってSharePoint Excel Services へのJDBC 接続を確認できます。
- SharePoint Excel Services 用の新しいデータベースドライバーを追加します。[Connections]->[Manage Database Drivers]とクリックします。
- 表示されるウィザードで[Add]ボタンをクリックし、接続に名前を入力します。
- JDBC URL のプレフィックスを入力します。
jdbc:excelservices:
- インストールディレクトリのlib サブフォルダにあるcdata.jdbc.excelservices.jar ファイルにパスを入力して下さい。
- ドライバークラスを入力します。
cdata.jdbc.excelservices.ExcelServicesDriver
- 新しいSharePoint Excel Services 接続を作成します。[Connections]->[Manage Database Connections]とクリックします。
- 接続の名前を入力します。
- データベースシステムの場合は、以前構成したSharePoint Excel Services ドライバーを選択します。
- Host ボックスで接続文字列を入力します。
ワークブックへの接続
どちらのSharePoint エディションをお使いでも、File を Excel ワークブックに設定してください。このパスは以下のプロパティからの相対パスになります。
- Library:デフォルトではShared Documents ライブラリが使用されます。このプロパティを使って、組織内の別のドキュメントライブラリを指定してみてください。例えば、OneDrive for Business に接続する場合は、このプロパティを"Documents" に設定します。
- Folder:このプロパティを使って、ライブラリ内のサブフォルダへのパスを指定できます。パスはLibrary で指定されたライブラリ名に関連します。
テーブルとしてのスプレッドシートデータへの接続
CData 製品では、基底API で利用可能なオブジェクトに基づいて、使用可能なテーブルを検出していきます。
API では異なるAPI オブジェクトを表示します。スプレッドシートの構成とSharePoint のバージョンに基づいてAPI を選択しましょう。
- OData: OData API を使用すると、Excel で[挿入]->[テーブル]をクリックして作成されたExcel テーブルオブジェクト(範囲やスプレッドシートではありません)から定義されたテーブルにアクセスできます。OData API に接続する際、ワークブックにテーブルオブジェクトが定義されていない場合は、CData 製品がテーブルを返さないことがあります。テーブルとしてスプレッドシートまたは範囲に接続するには、UseRESTAPI をtrue に設定してください。
- REST: REST API を使用すると、Excel テーブルオブジェクト、範囲、およびスプレッドシートから定義されたテーブルへアクセスできます。これがデフォルトの API です。範囲およびスプレッドシートから多数の行をリクエストすることは REST API によって制限されており、CData 製品では返される行数をデフォルトで 100 に制限しています。また CData 製品では、デフォルトで1行目からカラム名を検出します。これを無効にするには、Header を設定してください。
DefineTables を追加設定すると、Excel の範囲の構文を使用して、範囲に基づいてテーブルを定義できます。大きすぎる範囲は、API によって制限されます。
SharePoint オンプレミスへの接続
URL をサーバー名もしくはIP アドレスに設定しましょう。さらに、SharePointVersion と認証値を設定します。
SharePoint OnPremises を認証するには、AuthScheme を認証タイプに設定し、必要に応じてUser と Password を設定してください。
Note:SharePoint On-Premises 2010 に接続する場合は、 UseRESTAPI をtrue に設定する必要があります。
Windows(NTLM)
最も一般的な認証タイプです。CData 製品では NTLM をデフォルトとして使用するよう事前設定されています。Windows のUser と Password を設定して接続してください。
その他の認証方法については、ヘルプドキュメントの「はじめに」をご覧ください。
ビルトイン接続文字列デザイナ
JDBC URL の構成については、SharePoint Excel Services JDBC Driver に組み込まれている接続文字列デザイナを使用してください。JAR ファイルのダブルクリック、またはコマンドラインからJAR ファイルを実行します。
java -jar cdata.jdbc.excelservices.jar
接続プロパティを入力し、接続文字列をクリップボードにコピーします。
以下は一般的な接続文字列です。
URL=https://myorg.sharepoint.com;User=admin@myorg.onmicrosoft.com;Password=password;File=Book1.xlsx;
- 必要であればユーザー名とパスワードを入力します。
プロセス内の様々なRapidMiner オペレーターとのSharePoint Excel Services 接続を使用できます。SharePoint Excel Services を取得するには、[Operators]ビューから[Retrieve]をドラッグします。
[Retrieve]オペレータを選択した状態で、[repository entry]の横にあるフォルダアイコンをクリックして[Parameters]ビューで取得するテーブルを定義できます。表示されるRepository ブラウザで接続ノードを展開し、目的のサンプルセットを選択できます。
最後に、[Retrieve]プロセスから結果に出力をワイヤリングし、プロセスを実行してSharePoint Excel Services を確認します。