エンタープライズサーチのNeuron にSharePoint Excel Services のデータを取り込んで検索利用

杉本和也
リードエンジニア

企業内検索エンジンサービスの Neuron にSharePoint Excel Services のデータを取り込んで検索する方法：CData JDBC Driver。

ブレインズテクノロジー社のNeuron は、先端OSS 技術（Apache Solr）を活用したエンタープライズサーチ（企業内検索エンジン）サービスです。Apache Solr は、エンタープライズサーチ機能をAPI として提供してくれますが、Neuron はApache Solr に企業ユーザーがデータを探索するためのシンプルかつ使いやすいユーザーインターフェースと管理画面・運用機能を提供してくれます。これによりエンドユーザーが簡単にエンタープライズサーチを利用することができます。管理画面では、ファイルやデータのクローリング設定がUI で行えるようになっています。この記事では、Neuron に備わっているJDBC インターフェース経由で、CData JDBC Driver for ExcelServices を利用することでNeuron にSharePoint Excel Services のデータを取り込んで検索で利用できるようにします。

Neuron にCData JDBC Driver for ExcelServices データをロード

CData JDBC Driver for ExcelServices のインストールと.jar ファイルの配置

CData JDBC Driver for ExcelServices をNeuron と同じマシンにインストールします。
以下のパスにJDBC Driver がインストールされます。
C:\Program Files\CData\CData JDBC Driver for ExcelServices 20xxJ\lib\cdata.jdbc.excelservices.jar
このcdata.jdbc.excelservices.jar とcdata.jdbc.excelservices.lic ファイルをコピーして、Neuron のC:\APP cf\lib フォルダに配置します。

Neuron CF でのSharePoint Excel Services のデータを扱うリポジトリの作成

Neuron CF でクローラーの設定をGUI で行います。JDBC を読み取るためのリポジトリを作成します。Neuron の管理画面にログインし、［リポジトリ］→［リポジトリコレクション一覧］→［新規］をクリックします。
任意のリポジトリ名を入力します。タイプは［JDBC］を選択します。
次に、ドライバーのクラス名とJDBC 接続文字列でSharePoint Excel Services への接続を行います。

ワークブックへの接続

どちらのSharePoint エディションをお使いでも、File を Excel ワークブックに設定してください。このパスは以下のプロパティからの相対パスになります。
- Library：デフォルトではShared Documents ライブラリが使用されます。このプロパティを使って、組織内の別のドキュメントライブラリを指定してみてください。例えば、OneDrive for Business に接続する場合は、このプロパティを"Documents" に設定します。
- Folder：このプロパティを使って、ライブラリ内のサブフォルダへのパスを指定できます。パスはLibrary で指定されたライブラリ名に関連します。
テーブルとしてのスプレッドシートデータへの接続

CData 製品では、基底API で利用可能なオブジェクトに基づいて、使用可能なテーブルを検出していきます。
API では異なるAPI オブジェクトを表示します。スプレッドシートの構成とSharePoint のバージョンに基づいてAPI を選択しましょう。
- OData： OData API を使用すると、Excel で［挿入］->［テーブル］をクリックして作成されたExcel テーブルオブジェクト（範囲やスプレッドシートではありません）から定義されたテーブルにアクセスできます。OData API に接続する際、ワークブックにテーブルオブジェクトが定義されていない場合は、CData 製品がテーブルを返さないことがあります。テーブルとしてスプレッドシートまたは範囲に接続するには、UseRESTAPI をtrue に設定してください。
- REST： REST API を使用すると、Excel テーブルオブジェクト、範囲、およびスプレッドシートから定義されたテーブルへアクセスできます。これがデフォルトの API です。範囲およびスプレッドシートから多数の行をリクエストすることは REST API によって制限されており、CData 製品では返される行数をデフォルトで 100 に制限しています。また CData 製品では、デフォルトで1行目からカラム名を検出します。これを無効にするには、Header を設定してください。
DefineTables を追加設定すると、Excel の範囲の構文を使用して、範囲に基づいてテーブルを定義できます。大きすぎる範囲は、API によって制限されます。
SharePoint オンプレミスへの接続

URL をサーバー名もしくはIP アドレスに設定しましょう。さらに、SharePointVersion と認証値を設定します。
SharePoint OnPremises を認証するには、AuthScheme を認証タイプに設定し、必要に応じてUser と Password を設定してください。
Note：SharePoint On-Premises 2010 に接続する場合は、 UseRESTAPI をtrue に設定する必要があります。
- ［更新］をクリックして、SharePoint Excel Services に接続するリポジトリコレクションができました。
Neuron でSharePoint Excel Services のデータをクローリングするジョブを作成

続いて、SharePoint Excel Services のどのデータをどのようにクローリングするのかをジョブで定義していきます。
- 管理画面で［ジョブ］→［ジョブ一覧］→［新規］とクリックします。
- 任意のジョブ名を入力します。出力先にはSolr を選択します。リポジトリは先ほど作成したSharePoint Excel Services に接続するリポジトリコレクションを選びます。
- 次に基本タブからジョブ実行を手動にするか、定期実行するかを自由に設定します。
- SQL タブでは、どんなデータを取得するのか、テーブル名やカラム、フィルタリング条件などを設定できます。CData JDBC ドライバがSharePoint Excel Services のデータをテーブルにモデル化しているので、標準SQL でSharePoint Excel Services をクエリすることができます。
  - SQL文：SELECT Name, AnnualRevenue FROM Account
  - キーカラム：Id など取得テーブルのキーとなるカラム
  - 検索対象カラム：検索の対象とするカラム
  - タイトルカラム：検索結果のタイトルとするカラム
  - タイムスタンプカラム：タイムスタンプとなるカラムがあれば、ここで指定します
- リクエストパラメータでは、検索結果レコードのURL （があれば）を設定することもできます。URL を表示できると表示された検索結果からレコードに簡単に移動できます。
- 取得元では、ラベルを設定しておきます。［更新］をクリックして、クローラージョブの設定を完了します。
Neuron でSharePoint Excel Services のデータをクロールするジョブを実行

実際にNeuron で作成したジョブを実行します。［ジョブ］→［状態とジョブ管理］をクリックし、作成したジョブの［Start］をクリックします。

ジョブが正常完了すると、［Done］がステータスとして表示されます。

Neuron 上でのSharePoint Excel Services のデータの検索の実施

実際にNeuron 上で検索ができるか確認してみます。取得元を絞り込むこと、内容やファイル名での検索、ファイルサイズやファイル更新日の絞り込み、部分一致や全部一致で検索が可能です。検索をかけてみると、以下のようにデータを取得できました。

CData JDBC Driver for ExcelServices をNeuron で使うことで、SharePoint Excel Services コネクタとして機能し、簡単にデータを取得して同期することができました。ぜひ、30日の無償評価版をお試しください。