SnapLogic を使用して HDFS を外部サービスと連携
SnapLogic は、ノーコードでデータ連携フローを作成できる iPaaS(Integration Platform as a Service)です。CData JDBC Driver と組み合わせることで、HDFS を含む250を超える SaaS、ビッグデータ、NoSQL ソースのリアルタイムデータに SnapLogic ワークフローからアクセスできます。
CData JDBC Driver は、最適化されたデータ処理機能を内蔵しており、リアルタイム HDFS のデータ とのやり取りにおいて比類ないパフォーマンスを発揮します。外部ツールから複雑な SQL クエリが発行されると、ドライバーはフィルタや集計などのサポートされている SQL 操作を HDFS に直接プッシュし、サポートされていない操作(多くの場合、SQL 関数や JOIN 操作)は内蔵の SQL エンジンを使用してクライアント側で処理します。動的なメタデータクエリ機能により、ネイティブデータ型を使用して HDFS のデータ を操作できます。
SnapLogic から HDFS に接続
SnapLogic から HDFS のデータ に接続するには、CData HDFS JDBC Driver をダウンロードしてインストールします。インストールウィザードに従って進めてください。インストールが完了すると、JAR ファイルはインストールディレクトリ(デフォルトでは C:/Program Files/CData/CData JDBC Driver for HDFS/lib)に配置されます。
HDFS JDBC Driver のアップロード
インストール後、Manager タブから SnapLogic 内の場所(例:projects/Jerod Johnson)に JDBC JAR ファイルをアップロードします。
接続の設定
JDBC Driver をアップロードしたら、HDFS への接続を作成します。
- Designer タブに移動します
- Snaps から「JDBC」を展開し、「Generic JDBC - Select」snap をデザイナーにドラッグします
- Add Account をクリック(または既存のアカウントを選択)し、「Continue」をクリックします
- 次のフォームで、JDBC 接続プロパティを設定します:
- JDBC JARs に、先ほどアップロードした JAR ファイルを追加します
- JDBC Driver Class を cdata.jdbc.hdfs.HDFSDriver に設定します
JDBC URL を HDFS JDBC Driver の JDBC 接続文字列に設定します。例:
jdbc:hdfs:Host=sandbox-hdp.hortonworks.com;Port=50070;Path=/user/root;User=root;RTK=XXXXXX;
注意:RTK はトライアルキーまたは製品キーです。詳細についてはサポートチームまでお問い合わせください。
組み込みの接続文字列デザイナー
JDBC URL の構築には、HDFS JDBC Driver に組み込まれている接続文字列デザイナーを使用できます。JAR ファイルをダブルクリックするか、コマンドラインから JAR ファイルを実行してください。
java -jar cdata.jdbc.hdfs.jar
接続プロパティを入力し、接続文字列をクリップボードにコピーします。
HDFS 接続プロパティの取得・設定方法
HDFS への認証には、次の接続プロパティを設定します。
- Host:HDFS インスタンスのホストに設定。
- Port:HDFS インスタンスのポートに設定。デフォルトのポートは"9870" です。
- 接続プロパティを入力したら、「Validate」をクリックし、「Apply」をクリックします
HDFS のデータ の読み取り
接続の検証と適用後に開くフォームで、クエリを設定します。
- Schema name を「HDFS」に設定します
- Table name を HDFS のテーブルに設定します。スキーマ名を使用して、例:「HDFS」.「Files」(ドロップダウンで利用可能なテーブルの一覧を確認できます)
- テーブルから使用する各項目の Output fields を追加します
Generic JDBC - Select snap を保存します。
接続とクエリを設定したら、snap の末尾をクリックしてデータをプレビューします(下図でハイライト表示)。
結果が期待通りであることを確認したら、追加の snap を使用して HDFS のデータ を別のエンドポイントに送信できます。
HDFS のデータ を外部サービスにパイプ
この記事では、データを Google スプレッドシートに読み込みます。サポートされている任意の snap を使用するか、別の CData JDBC Driver と Generic JDBC snap を使用して、外部サービスにデータを移動できます。
- 「Worksheet Writer」snap を「Generic JDBC - Select」snap の末尾にドロップします。
- Google Sheets に接続するためのアカウントを追加します
- Worksheet Writer snap を設定して、HDFS のデータ を Google スプレッドシートに書き込みます
これで、完全に設定されたパイプラインを実行して、HDFS からデータを抽出し、Google スプレッドシートにプッシュできます。
詳細情報と無料トライアル
CData JDBC Driver for HDFS を使用することで、SnapLogic で HDFS のデータ を外部サービスと連携するパイプラインを作成できます。HDFS への接続の詳細については、CData JDBC Driver for HDFS ページをご覧ください。CData JDBC Driver for HDFS の30日間無料トライアルをダウンロードして、今すぐお試しください。