エンタープライズサーチのNeuron にAmazon S3 のデータを取り込んで検索利用

杉本和也
リードエンジニア

企業内検索エンジンサービスの Neuron にAmazon S3 のデータを取り込んで検索する方法：CData JDBC Driver。

ブレインズテクノロジー社のNeuron は、先端OSS 技術（Apache Solr）を活用したエンタープライズサーチ（企業内検索エンジン）サービスです。Apache Solr は、エンタープライズサーチ機能をAPI として提供してくれますが、Neuron はApache Solr に企業ユーザーがデータを探索するためのシンプルかつ使いやすいユーザーインターフェースと管理画面・運用機能を提供してくれます。これによりエンドユーザーが簡単にエンタープライズサーチを利用することができます。管理画面では、ファイルやデータのクローリング設定がUI で行えるようになっています。この記事では、Neuron に備わっているJDBC インターフェース経由で、CData JDBC Driver for AmazonS3 を利用することでNeuron にAmazon S3 のデータを取り込んで検索で利用できるようにします。

Neuron にCData JDBC Driver for AmazonS3 データをロード

CData JDBC Driver for AmazonS3 のインストールと.jar ファイルの配置

CData JDBC Driver for AmazonS3 をNeuron と同じマシンにインストールします。
以下のパスにJDBC Driver がインストールされます。
C:\Program Files\CData\CData JDBC Driver for AmazonS3 20xxJ\lib\cdata.jdbc.amazons3.jar
このcdata.jdbc.amazons3.jar とcdata.jdbc.amazons3.lic ファイルをコピーして、Neuron のC:\APP cf\lib フォルダに配置します。

Neuron CF でのAmazon S3 のデータを扱うリポジトリの作成

Neuron CF でクローラーの設定をGUI で行います。JDBC を読み取るためのリポジトリを作成します。Neuron の管理画面にログインし、［リポジトリ］→［リポジトリコレクション一覧］→［新規］をクリックします。
任意のリポジトリ名を入力します。タイプは［JDBC］を選択します。
次に、ドライバーのクラス名とJDBC 接続文字列でAmazon S3 への接続を行います。

Amazon S3 リクエストを認可するには、管理者アカウントまたはカスタム権限を持つIAM ユーザーの認証情報を入力します。AccessKey をアクセスキーID に設定します。SecretKey をシークレットアクセスキーに設定します。

Note: AWS アカウント管理者として接続できますが、AWS サービスにアクセスするにはIAM ユーザー認証情報を使用することをお勧めします。

尚、CData 製品はAmazon S3 のファイルの一覧表示やユーザー管理情報の取得用です。S3 に保管されているExcel、CSV、JSON などのファイル内のデータを読み込みたい場合には、Excel Driver、CSV Driver、JSON Driver をご利用ください。

アクセスキーの取得

IAM ユーザーの資格情報を取得するには：
1. IAM コンソールにサインインします。
2. ナビゲーションペインで「ユーザー」を選択します。
3. ユーザーのアクセスキーを作成または管理するには、ユーザーを選択してから「セキュリティ認証情報」タブを選択します。
AWS ルートアカウントの資格情報を取得するには：
1. ルートアカウントの資格情報を使用してAWS 管理コンソールにサインインします。
2. アカウント名または番号を選択し、表示されたメニューで「My Security Credentials」を選択します。
3. 「Continue to Security Credentials」をクリックし、「Access Keys」セクションを展開して、ルートアカウントのアクセスキーを管理または作成します。
AWS ロールとして認証

多くの場合、認証にはAWS ルートユーザーのダイレクトなセキュリティ認証情報ではなく、IAM ロールを使用することをお勧めします。RoleARN を指定することでAWS ロールを代わりに使用できます。これにより、CData 製品は指定されたロールの資格情報を取得しようと試みます。

（すでにEC2 インスタンスなどで接続されているのではなく）AWS に接続している場合は、ロールを引き受けるIAM ユーザーのAccessKey とSecretKey を追加で指定する必要があります。AWS ルートユーザーのAccessKey および SecretKey を指定する場合、ロールは使用できません。

SSO 認証

SSO 認証を必要とするユーザーおよびロールには、RoleARN およびPrincipalArn 接続プロパティを指定してください。各Identity Provider に固有のSSOProperties を指定し、AccessKey とSecretKey を空のままにする必要があります。これにより、CData 製品は一時的な認証資格情報を取得するために、リクエストでSSO 認証情報を送信します。

ドライバクラス名：cdata.jdbc.amazons3.AmazonS3Driver
接続文字列：jdbc:amazons3:AccessKey=a123;SecretKey=s123;
［更新］をクリックして、Amazon S3 に接続するリポジトリコレクションができました。

Neuron でAmazon S3 のデータをクローリングするジョブを作成

続いて、Amazon S3 のどのデータをどのようにクローリングするのかをジョブで定義していきます。

管理画面で［ジョブ］→［ジョブ一覧］→［新規］とクリックします。
任意のジョブ名を入力します。出力先にはSolr を選択します。リポジトリは先ほど作成したAmazon S3 に接続するリポジトリコレクションを選びます。
次に基本タブからジョブ実行を手動にするか、定期実行するかを自由に設定します。
SQL タブでは、どんなデータを取得するのか、テーブル名やカラム、フィルタリング条件などを設定できます。CData JDBC ドライバがAmazon S3 のデータをテーブルにモデル化しているので、標準SQL でAmazon S3 をクエリすることができます。
- SQL文：SELECT Name, OwnerId FROM ObjectsACL
- キーカラム：Id など取得テーブルのキーとなるカラム
- 検索対象カラム：検索の対象とするカラム
- タイトルカラム：検索結果のタイトルとするカラム
- タイムスタンプカラム：タイムスタンプとなるカラムがあれば、ここで指定します
リクエストパラメータでは、検索結果レコードのURL （があれば）を設定することもできます。URL を表示できると表示された検索結果からレコードに簡単に移動できます。
取得元では、ラベルを設定しておきます。［更新］をクリックして、クローラージョブの設定を完了します。