エンタープライズサーチのNeuron にBitbucket のデータを取り込んで検索利用

杉本和也
リードエンジニア

企業内検索エンジンサービスの Neuron にBitbucket のデータを取り込んで検索する方法：CData JDBC Driver。

ブレインズテクノロジー社のNeuron は、先端OSS 技術（Apache Solr）を活用したエンタープライズサーチ（企業内検索エンジン）サービスです。Apache Solr は、エンタープライズサーチ機能をAPI として提供してくれますが、Neuron はApache Solr に企業ユーザーがデータを探索するためのシンプルかつ使いやすいユーザーインターフェースと管理画面・運用機能を提供してくれます。これによりエンドユーザーが簡単にエンタープライズサーチを利用することができます。管理画面では、ファイルやデータのクローリング設定がUI で行えるようになっています。この記事では、Neuron に備わっているJDBC インターフェース経由で、CData JDBC Driver for Bitbucket を利用することでNeuron にBitbucket のデータを取り込んで検索で利用できるようにします。

Neuron にCData JDBC Driver for Bitbucket データをロード

CData JDBC Driver for Bitbucket のインストールと.jar ファイルの配置

CData JDBC Driver for Bitbucket をNeuron と同じマシンにインストールします。
以下のパスにJDBC Driver がインストールされます。
C:\Program Files\CData\CData JDBC Driver for Bitbucket 20xxJ\lib\cdata.jdbc.bitbucket.jar
このcdata.jdbc.bitbucket.jar とcdata.jdbc.bitbucket.lic ファイルをコピーして、Neuron のC:\APP cf\lib フォルダに配置します。

Neuron CF でのBitbucket のデータを扱うリポジトリの作成

Neuron CF でクローラーの設定をGUI で行います。JDBC を読み取るためのリポジトリを作成します。Neuron の管理画面にログインし、［リポジトリ］→［リポジトリコレクション一覧］→［新規］をクリックします。
任意のリポジトリ名を入力します。タイプは［JDBC］を選択します。
次に、ドライバーのクラス名とJDBC 接続文字列でBitbucket への接続を行います。

ほとんどのクエリでは、ワークスペースを設定する必要があります。唯一の例外は、Workspacesテーブルです。このテーブルはこのプロパティの設定を必要とせず、クエリを実行すると、Workspaceの設定に使用できるワークスペーススラッグのリストが提供されます。このテーブルにクエリを実行するには、スキーマを'Information'に設定し、SELECT * FROM Workspacesクエリを実行する必要があります。

Schemaを'Information'に設定すると、一般的な情報が表示されます。Bitbucketに接続するには、以下のパラメータを設定してください。
- Schema: ワークスペースのユーザー、リポジトリ、プロジェクトなどの一般的な情報を表示するには、これを'Information'に設定します。それ以外の場合は、クエリを実行するリポジトリまたはプロジェクトのスキーマに設定します。利用可能なスキーマの完全なセットを取得するには、sys_schemasテーブルにクエリを実行してください。
- Workspace: Workspacesテーブルにクエリを実行する場合を除き、必須です。Workspacesテーブルへのクエリにはこのプロパティは必要ありません。そのクエリはWorkspaceの設定に使用できるワークスペーススラッグのリストのみを返すためです。
Bitbucketでの認証

BitbucketはOAuth認証のみをサポートしています。すべてのOAuthフローからこの認証を有効にするには、カスタムOAuthアプリケーションを作成し、AuthSchemeをOAuthに設定する必要があります。

特定の認証ニーズ（デスクトップアプリケーション、Webアプリケーション、ヘッドレスマシン）に必要な接続プロパティについては、ヘルプドキュメントを必ず確認してください。

カスタムOAuthアプリケーションの作成

Bitbucketアカウントから、以下のステップを実行します。
1. 設定（歯車アイコン）に移動し、ワークスペース設定を選択します。
2. アプリと機能セクションで、OAuthコンシューマーを選択します。
3. コンシューマーを追加をクリックします。
4. カスタムアプリケーションの名前と説明を入力します。
5. コールバックURLを設定します。
  - デスクトップアプリケーションとヘッドレスマシンの場合、http://localhost:33333または任意のポート番号を使用します。ここで設定するURIがCallbackURLプロパティになります。
  - Webアプリケーションの場合、信頼できるリダイレクトURLにコールバックURLを設定します。このURLは、ユーザーがアプリケーションにアクセスが許可されたことを確認するトークンを持って戻るWebの場所です。
6. クライアント認証情報を使用して認証する予定の場合、これはプライベートコンシューマーですを選択する必要があります。ドライバーでは、AuthSchemeをclientに設定する必要があります。
7. OAuthアプリケーションに与える権限を選択します。これにより、読み取りおよび書き込みできるデータが決まります。
8. 新しいカスタムアプリケーションを保存するには、保存をクリックします。
9. アプリケーションが保存された後、それを選択して設定を表示できます。アプリケーションのKeyとSecretが表示されます。これらを将来の使用のために記録してください。Keyを使用してOAuthClientIdを設定し、Secretを使用してOAuthClientSecretを設定します。
ドライバクラス名：cdata.jdbc.bitbucket.BitbucketDriver
接続文字列：jdbc:bitbucket:Workspace=myworkspaceslug;Schema=InformationInitiateOAuth=REFRESH
［更新］をクリックして、Bitbucket に接続するリポジトリコレクションができました。

Neuron でBitbucket のデータをクローリングするジョブを作成

続いて、Bitbucket のどのデータをどのようにクローリングするのかをジョブで定義していきます。

管理画面で［ジョブ］→［ジョブ一覧］→［新規］とクリックします。
任意のジョブ名を入力します。出力先にはSolr を選択します。リポジトリは先ほど作成したBitbucket に接続するリポジトリコレクションを選びます。
次に基本タブからジョブ実行を手動にするか、定期実行するかを自由に設定します。
SQL タブでは、どんなデータを取得するのか、テーブル名やカラム、フィルタリング条件などを設定できます。CData JDBC ドライバがBitbucket のデータをテーブルにモデル化しているので、標準SQL でBitbucket をクエリすることができます。
- SQL文：SELECT Title, ContentRaw FROM Issues
- キーカラム：Id など取得テーブルのキーとなるカラム
- 検索対象カラム：検索の対象とするカラム
- タイトルカラム：検索結果のタイトルとするカラム
- タイムスタンプカラム：タイムスタンプとなるカラムがあれば、ここで指定します
リクエストパラメータでは、検索結果レコードのURL （があれば）を設定することもできます。URL を表示できると表示された検索結果からレコードに簡単に移動できます。
取得元では、ラベルを設定しておきます。［更新］をクリックして、クローラージョブの設定を完了します。