CloverDX(旧CloverETL)で HDFS のデータ に接続
CData JDBC Driver for HDFS を使用すると、CloverDX(旧CloverETL)のデータ変換コンポーネントで HDFS をソースとして扱えます。この記事では、JDBC Driver for HDFS を使用して、フラットファイルへのシンプルな転送を設定する方法を説明します。
JDBC データソースとして HDFS に接続
- HDFS のデータ への接続を作成します。新規のCloverDX グラフで、Outline ペインの「Connections」ノードを右クリックし、「Connections」->「Create Connection」をクリックします。Database Connection ウィザードが表示されます。
- プラスアイコンをクリックし、JAR からドライバーをロードします。インストールディレクトリのlib サブフォルダを参照し、cdata.jdbc.hdfs.jar ファイルを選択します。
- JDBC URL を入力します。
HDFS 接続プロパティの取得・設定方法
HDFS への認証には、次の接続プロパティを設定します。
- Host:HDFS インスタンスのホストに設定。
- Port:HDFS インスタンスのポートに設定。デフォルトのポートは"9870" です。
組み込みの接続文字列デザイナー
JDBC URL の構築には、HDFS JDBC Driver に組み込まれている接続文字列デザイナーを使用してください。JAR ファイルをダブルクリックするか、コマンドラインから実行します。
java -jar cdata.jdbc.hdfs.jar
接続プロパティを入力し、接続文字列をクリップボードにコピーします。
一般的なJDBC URL は次のようになります:
jdbc:hdfs:Host=sandbox-hdp.hortonworks.com;Port=50070;Path=/user/root;User=root;
DBInputTable コンポーネントで HDFS のデータ をクエリ
- Palette の「Readers」から「DBInputTable」をジョブフローにドラッグし、ダブルクリックして設定エディターを開きます。
- 「DB connection」プロパティで、ドロップダウンメニューから HDFS JDBC データソースを選択します。
- SQL クエリを入力します。例:
SELECT FileId, ChildrenNum FROM Files WHERE FileId = '119116'
クエリの出力をUniversalDataWriter に書き込む
- 「Writers」から「UniversalDataWriter」をジョブフローにドラッグします。
- UniversalDataWriter をダブルクリックして設定エディターを開き、ファイルURL を追加します。
- DBInputTable を右クリックし、「Extract Metadata」をクリックします。
- DBInputTable の出力ポートをUniversalDataWriter に接続します。
- UniversalDataWriter の「Select Metadata」メニューで、Files テーブルを選択します。(このメニューはUniversalDataWriter の入力ポートを右クリックしても開けます。)
- 「Run」をクリックして、ファイルに書き込みます。