エンタープライズサーチのNeuron にAzure Data Lake Storage のデータを取り込んで検索利用

杉本和也
リードエンジニア

企業内検索エンジンサービスの Neuron にAzure Data Lake Storage のデータを取り込んで検索する方法：CData JDBC Driver。

ブレインズテクノロジー社のNeuron は、先端OSS 技術（Apache Solr）を活用したエンタープライズサーチ（企業内検索エンジン）サービスです。Apache Solr は、エンタープライズサーチ機能をAPI として提供してくれますが、Neuron はApache Solr に企業ユーザーがデータを探索するためのシンプルかつ使いやすいユーザーインターフェースと管理画面・運用機能を提供してくれます。これによりエンドユーザーが簡単にエンタープライズサーチを利用することができます。管理画面では、ファイルやデータのクローリング設定がUI で行えるようになっています。この記事では、Neuron に備わっているJDBC インターフェース経由で、CData JDBC Driver for ADLS を利用することでNeuron にAzure Data Lake Storage のデータを取り込んで検索で利用できるようにします。

Neuron にCData JDBC Driver for ADLS データをロード

CData JDBC Driver for ADLS のインストールと.jar ファイルの配置

CData JDBC Driver for ADLS をNeuron と同じマシンにインストールします。
以下のパスにJDBC Driver がインストールされます。
C:\Program Files\CData\CData JDBC Driver for ADLS 20xxJ\lib\cdata.jdbc.adls.jar
このcdata.jdbc.adls.jar とcdata.jdbc.adls.lic ファイルをコピーして、Neuron のC:\APP cf\lib フォルダに配置します。

Neuron CF でのAzure Data Lake Storage のデータを扱うリポジトリの作成

Neuron CF でクローラーの設定をGUI で行います。JDBC を読み取るためのリポジトリを作成します。Neuron の管理画面にログインし、［リポジトリ］→［リポジトリコレクション一覧］→［新規］をクリックします。
任意のリポジトリ名を入力します。タイプは［JDBC］を選択します。
次に、ドライバーのクラス名とJDBC 接続文字列でAzure Data Lake Storage への接続を行います。

Azure Data Lake Storage 接続プロパティの取得・設定方法

Azure Data Lake Storage Gen2 への接続

それでは、Gen2 Data Lake Storage アカウントに接続していきましょう。接続するには、以下のプロパティを設定します。
- Account：ストレージアカウントの名前
- FileSystem：このアカウントに使用されるファイルシステム名。例えば、Azure Blob コンテナの名前
- Directory（オプション）：レプリケートされたファイルが保存される場所へのパス。パスが指定されない場合、ファイルはルートディレクトリに保存されます
Azure Data Lake Storage Gen2への認証

続いて、認証方法を設定しましょう。CData 製品では、5つの認証方法をサポートしています：アクセスキー（AccessKey）の使用、共有アクセス署名（SAS）の使用、Azure Active Directory OAuth（AzureAD）経由、Azure サービスプリンシパル（AzureServicePrincipal またはAzureServicePrincipalCert）経由、およびManaged Service Identity（AzureMSI）経由です。

アクセスキー

アクセスキーを使用して接続するには、まずADLS Gen2ストレージアカウントで利用可能なアクセスキーを取得する必要があります。

Azure ポータルでの手順は以下のとおりです：
1. ADLS Gen2ストレージアカウントにアクセスします
2. 設定でアクセスキーを選択します
3. 利用可能なアクセスキーの1つの値をAccessKey 接続プロパティにコピーします
接続の準備ができたら、以下のプロパティを設定してください。
- AuthScheme：AccessKey
- AccessKey：先ほどAzure ポータルで取得したアクセスキーの値
共有アクセス署名（SAS）

共有アクセス署名を使用して接続するには、まずAzure Storage Explorer ツールを使用して署名を生成する必要があります。

接続の準備ができたら、以下のプロパティを設定してください。
- AuthScheme：SAS
- SharedAccessSignature：先ほど生成した共有アクセス署名の値
その他の認証方法については、 href="/kb/help/" target="_blank">ヘルプドキュメントの「Azure Data Lake Storage Gen2への認証」セクションをご確認ください。

ドライバクラス名：cdata.jdbc.adls.ADLSDriver
接続文字列：jdbc:adls:Schema=ADLSGen2;Account=myAccount;FileSystem=myFileSystem;AccessKey=myAccessKey;InitiateOAuth=REFRESH
［更新］をクリックして、Azure Data Lake Storage に接続するリポジトリコレクションができました。

Neuron でAzure Data Lake Storage のデータをクローリングするジョブを作成

続いて、Azure Data Lake Storage のどのデータをどのようにクローリングするのかをジョブで定義していきます。

管理画面で［ジョブ］→［ジョブ一覧］→［新規］とクリックします。
任意のジョブ名を入力します。出力先にはSolr を選択します。リポジトリは先ほど作成したAzure Data Lake Storage に接続するリポジトリコレクションを選びます。
次に基本タブからジョブ実行を手動にするか、定期実行するかを自由に設定します。
SQL タブでは、どんなデータを取得するのか、テーブル名やカラム、フィルタリング条件などを設定できます。CData JDBC ドライバがAzure Data Lake Storage のデータをテーブルにモデル化しているので、標準SQL でAzure Data Lake Storage をクエリすることができます。
- SQL文：SELECT FullPath, Permission FROM Resources
- キーカラム：Id など取得テーブルのキーとなるカラム
- 検索対象カラム：検索の対象とするカラム
- タイトルカラム：検索結果のタイトルとするカラム
- タイムスタンプカラム：タイムスタンプとなるカラムがあれば、ここで指定します
リクエストパラメータでは、検索結果レコードのURL （があれば）を設定することもできます。URL を表示できると表示された検索結果からレコードに簡単に移動できます。
取得元では、ラベルを設定しておきます。［更新］をクリックして、クローラージョブの設定を完了します。