エンタープライズサーチのNeuron にXML のデータを取り込んで検索利用

杉本和也
リードエンジニア

企業内検索エンジンサービスの Neuron にXML のデータを取り込んで検索する方法：CData JDBC Driver。

ブレインズテクノロジー社のNeuron は、先端OSS 技術（Apache Solr）を活用したエンタープライズサーチ（企業内検索エンジン）サービスです。Apache Solr は、エンタープライズサーチ機能をAPI として提供してくれますが、Neuron はApache Solr に企業ユーザーがデータを探索するためのシンプルかつ使いやすいユーザーインターフェースと管理画面・運用機能を提供してくれます。これによりエンドユーザーが簡単にエンタープライズサーチを利用することができます。管理画面では、ファイルやデータのクローリング設定がUI で行えるようになっています。この記事では、Neuron に備わっているJDBC インターフェース経由で、CData JDBC Driver for XML を利用することでNeuron にXML のデータを取り込んで検索で利用できるようにします。

Neuron にCData JDBC Driver for XML データをロード

CData JDBC Driver for XML のインストールと.jar ファイルの配置

CData JDBC Driver for XML をNeuron と同じマシンにインストールします。
以下のパスにJDBC Driver がインストールされます。
C:\Program Files\CData\CData JDBC Driver for XML 20xxJ\lib\cdata.jdbc.xml.jar
このcdata.jdbc.xml.jar とcdata.jdbc.xml.lic ファイルをコピーして、Neuron のC:\APP cf\lib フォルダに配置します。

Neuron CF でのXML のデータを扱うリポジトリの作成

Neuron CF でクローラーの設定をGUI で行います。JDBC を読み取るためのリポジトリを作成します。Neuron の管理画面にログインし、［リポジトリ］→［リポジトリコレクション一覧］→［新規］をクリックします。
任意のリポジトリ名を入力します。タイプは［JDBC］を選択します。
次に、ドライバーのクラス名とJDBC 接続文字列でXML への接続を行います。

データソースを認証するには、データプロバイダーのドキュメント内の「はじめに」セクションをご覧ください。データプロバイダーはXML API を双方向データベーステーブルとしてモデル化し、XML ファイルをread-only ビュー（ローカルファイル、人気のクラウドサービスに格納されたファイル、およびFTP サーバー）としてモデル化します。 HTTP Basic、Digest、NTLM、OAuth、およびFTP を含む主な認証スキームはサポートされています。認証のガイドについては、データプロバイダーのドキュメント内の「はじめに」セクションをご覧ください。

URI と認証値を設定した後で、DataModel を設定することでデータの構造によりよくマッチするようデータの抽象化を調整できます。

DataModel プロパティはデータがどのようにテーブルとして抽象化されるかを制御するプロパティであり、次の基本的な設定を調整します。
- Document（デフォルト）：XML データのトップレベルのドキュメントビューをモデル化します。データプロバイダーは入れ子化した要素をデータの集約値として返します。
- FlattenedDocuments：入れ子化したドキュメントとその親を結合して単一のテーブルに入力します。
- Relational：個別の関連テーブルを階層化されたデータから返します。テーブルは主キーと、親ドキュメントにリンクする外部キーを含みます。
リレーショナルな抽象化の設定についての詳細は、「XML データのモデリング」セクションを参照してください。次の例で使用されているサンプルデータも存在します。このデータには、人名、その人たちが所有する車、車に施されたさまざまなメンテナンスに関する情報が含まれます。

ドライバクラス名：cdata.jdbc.xml.XMLDriver
接続文字列：jdbc:xml:URI=C:/people.xml;DataModel=Relational;
［更新］をクリックして、XML に接続するリポジトリコレクションができました。

Neuron でXML のデータをクローリングするジョブを作成

続いて、XML のどのデータをどのようにクローリングするのかをジョブで定義していきます。

管理画面で［ジョブ］→［ジョブ一覧］→［新規］とクリックします。
任意のジョブ名を入力します。出力先にはSolr を選択します。リポジトリは先ほど作成したXML に接続するリポジトリコレクションを選びます。
次に基本タブからジョブ実行を手動にするか、定期実行するかを自由に設定します。
SQL タブでは、どんなデータを取得するのか、テーブル名やカラム、フィルタリング条件などを設定できます。CData JDBC ドライバがXML のデータをテーブルにモデル化しているので、標準SQL でXML をクエリすることができます。
- SQL文：SELECT [ personal.name.first ], [ personal.name.last ] FROM people
- キーカラム：Id など取得テーブルのキーとなるカラム
- 検索対象カラム：検索の対象とするカラム
- タイトルカラム：検索結果のタイトルとするカラム
- タイムスタンプカラム：タイムスタンプとなるカラムがあれば、ここで指定します
リクエストパラメータでは、検索結果レコードのURL （があれば）を設定することもできます。URL を表示できると表示された検索結果からレコードに簡単に移動できます。
取得元では、ラベルを設定しておきます。［更新］をクリックして、クローラージョブの設定を完了します。