SnapLogic を使用して HDFS を外部サービスと連携

Jerod Johnson
Senior Technology Evangelist

CData JDBC Driver を SnapLogic で使用して、HDFS を外部サービスと連携する方法を説明します。

SnapLogic は、ノーコードでデータ連携フローを作成できる iPaaS（Integration Platform as a Service）です。CData JDBC Driver と組み合わせることで、HDFS を含む250を超える SaaS、ビッグデータ、NoSQL ソースのリアルタイムデータに SnapLogic ワークフローからアクセスできます。

CData JDBC Driver は、最適化されたデータ処理機能を内蔵しており、リアルタイム HDFS のデータとのやり取りにおいて比類ないパフォーマンスを発揮します。外部ツールから複雑な SQL クエリが発行されると、ドライバーはフィルタや集計などのサポートされている SQL 操作を HDFS に直接プッシュし、サポートされていない操作（多くの場合、SQL 関数や JOIN 操作）は内蔵の SQL エンジンを使用してクライアント側で処理します。動的なメタデータクエリ機能により、ネイティブデータ型を使用して HDFS のデータを操作できます。

SnapLogic から HDFS に接続

SnapLogic から HDFS のデータに接続するには、CData HDFS JDBC Driver をダウンロードしてインストールします。インストールウィザードに従って進めてください。インストールが完了すると、JAR ファイルはインストールディレクトリ（デフォルトでは C:/Program Files/CData/CData JDBC Driver for HDFS/lib）に配置されます。

HDFS JDBC Driver のアップロード

インストール後、Manager タブから SnapLogic 内の場所（例：projects/Jerod Johnson）に JDBC JAR ファイルをアップロードします。

アップロードされた JDBC Driver（Salesforce と QuickBooks Online の例）

接続の設定

JDBC Driver をアップロードしたら、HDFS への接続を作成します。

Designer タブに移動します
Snaps から「JDBC」を展開し、「Generic JDBC - Select」snap をデザイナーにドラッグします
Add Account をクリック（または既存のアカウントを選択）し、「Continue」をクリックします
次のフォームで、JDBC 接続プロパティを設定します：
- JDBC JARs に、先ほどアップロードした JAR ファイルを追加します
- JDBC Driver Class を cdata.jdbc.hdfs.HDFSDriver に設定します
- JDBC URL を HDFS JDBC Driver の JDBC 接続文字列に設定します。例：
```
jdbc:hdfs:Host=sandbox-hdp.hortonworks.com;Port=50070;Path=/user/root;User=root;RTK=XXXXXX;
```
  注意：RTK はトライアルキーまたは製品キーです。詳細についてはサポートチームまでお問い合わせください。
  組み込みの接続文字列デザイナー
  
  JDBC URL の構築には、HDFS JDBC Driver に組み込まれている接続文字列デザイナーを使用できます。JAR ファイルをダブルクリックするか、コマンドラインから JAR ファイルを実行してください。
```
java -jar cdata.jdbc.hdfs.jar
```
  接続プロパティを入力し、接続文字列をクリップボードにコピーします。
  
  HDFS 接続プロパティの取得・設定方法
  
  HDFS への認証には、次の接続プロパティを設定します。
  - Host：HDFS インスタンスのホストに設定。
  - Port：HDFS インスタンスのポートに設定。デフォルトのポートは"9870" です。
接続プロパティを入力したら、「Validate」をクリックし、「Apply」をクリックします

HDFS のデータの読み取り

接続の検証と適用後に開くフォームで、クエリを設定します。

Schema name を「HDFS」に設定します
Table name を HDFS のテーブルに設定します。スキーマ名を使用して、例：「HDFS」.「Files」（ドロップダウンで利用可能なテーブルの一覧を確認できます）
テーブルから使用する各項目の Output fields を追加します

Generic JDBC - Select snap を保存します。

接続とクエリを設定したら、snap の末尾をクリックしてデータをプレビューします（下図でハイライト表示）。

結果が期待通りであることを確認したら、追加の snap を使用して HDFS のデータを別のエンドポイントに送信できます。

HDFS のデータを外部サービスにパイプ

この記事では、データを Google スプレッドシートに読み込みます。サポートされている任意の snap を使用するか、別の CData JDBC Driver と Generic JDBC snap を使用して、外部サービスにデータを移動できます。

「Worksheet Writer」snap を「Generic JDBC - Select」snap の末尾にドロップします。
Google Sheets に接続するためのアカウントを追加します
Worksheet Writer snap を設定して、HDFS のデータを Google スプレッドシートに書き込みます

これで、完全に設定されたパイプラインを実行して、HDFS からデータを抽出し、Google スプレッドシートにプッシュできます。

Google スプレッドシートに書き込まれたデータ（Salesforce の例）

詳細情報と無料トライアル

CData JDBC Driver for HDFS を使用することで、SnapLogic で HDFS のデータを外部サービスと連携するパイプラインを作成できます。HDFS への接続の詳細については、CData JDBC Driver for HDFS ページをご覧ください。CData JDBC Driver for HDFS の30日間無料トライアルをダウンロードして、今すぐお試しください。

はじめる準備はできましたか？

HDFS Driver の無料トライアルをダウンロードしてお試しください：

ダウンロード

詳細：

HDFS JDBC Driver お問い合わせ

HDFS データに連携するJava アプリケーションを素早く、簡単に開発できる便利なドライバー。

SnapLogic を使用して HDFS を外部サービスと連携