Talend Cloud Data Management Platform で CSV のデータ を連携
Qlik 社の Talend Cloud Data Management Platform は多様なデータ環境をサポートし、スマートな意思決定のための分析、業務データの共有、データおよびアプリケーションのモダナイゼーション、リスク低減のためのデータエクセレンスの確立を実現します。CData JDBC Driver for CSV と組み合わせると、CSV のデータ のデータ連携、品質管理、ガバナンスを向上できます。この記事では、Talend Cloud Data Management で CData JDBC Driver を使用して CSV に接続し、ワークフロー内でデータを同時に利用できるようにする方法を説明します。
前提条件
CData JDBC Driver を使用して Talend Cloud Data Management Platform でデータを表示・操作する前に、システムに最新バージョンの Talend Studio をダウンロードしてインストールしてください。また、以下の前提条件を満たしていることを確認してください。
- 適切な権限を持つ Talend Cloud Data Management アカウント
- CData Web サイトからダウンロード可能な CData JDBC Driver for CSV
Talend で CSV に JDBC データソースとして接続
Talend Data Management Cloud へのアクセス
- ローカルシステムにインストールされている Talend Cloud Data Management Platform を起動し、Other Login Mode をクリックします。
- Manage Connections をクリックします。Repository を「Local」に設定し、Name、Description、User E-mail を入力します。Workspace のパスを設定して OK をクリックします。
- Create a new project ラジオボタンを選択して新しいプロジェクト名を追加し、Create をクリックします。
- 新しいプロジェクトが Select an existing project セクションに表示されます。Open をクリックします。Talend Cloud Data Management Platform ワークスペースが開きます。
新しい接続の作成
- ナビゲーションペインで Metadata ドロップダウンを展開します。Db Connections を右クリックし、Create Connection を選択します。
- Database Connection ウィンドウの Find セクションで「JDBC」を検索して選択します。次に、Finish をクリックします。
- CSV のデータ をロードする Talend の新しいデータベースの Name、Purpose、Description を入力します。Next をクリックします。
- CSV に接続するための JDBC URL を生成します。jdbc:csv: で始まり、セミコロンで区切られた一連の接続文字列プロパティを続けます。
CSV 接続プロパティの取得・設定方法
DataSource プロパティにローカルフォルダ名を設定します。
.csv、.tab、.txt ではない拡張子のファイルを扱う場合には、IncludeFiles 使用する拡張子をカンマ区切りで設定します。Microsoft Jet OLE DB 4.0 driver 準拠の場合にはExtended Properties を設定することができます。別の方法として、Schema.ini ファイルにファイル形式を記述することも可能です。
CSV ファイルの削除や更新を行う場合には、UseRowNumbers をTRUE に設定します。RowNumber はテーブルKey として扱われます。
Amazon S3 内のCSV への接続
URI をバケットおよびフォルダに設定します。さらに、次のプロパティを設定して認証します。
- AWSAccessKey:AWS アクセスキー(username)に設定。
- AWSSecretKey:AWS シークレットキーに設定。
Box 内のCSV への接続
URI をCSV ファイルを含むフォルダへのパスに設定します。Box へ認証するには、OAuth 認証標準を使います。 認証方法については、Box への接続 を参照してください。
Dropbox 内のCSV への接続
URI をCSV ファイルを含むフォルダへのパスに設定します。Dropbox へ認証するには、OAuth 認証標準を使います。 認証方法については、Dropbox への接続 を参照してください。ユーザーアカウントまたはサービスアカウントで認証できます。ユーザーアカウントフローでは、以下の接続文字列で示すように、ユーザー資格情報の接続プロパティを設定する必要はありません。
SharePoint Online SOAP 内のCSV への接続
URI をCSV ファイルを含むドキュメントライブラリに設定します。認証するには、User、Password、およびStorageBaseURL を設定します。
SharePoint Online REST 内のCSV への接続
URI をCSV ファイルを含むドキュメントライブラリに設定します。StorageBaseURL は任意です。指定しない場合、ドライバーはルートドライブで動作します。 認証するには、OAuth 認証標準を使用します。
FTP 内のCSV への接続
URI をルートフォルダとして使用されるフォルダへのパスが付いたサーバーのアドレスに設定します。認証するには、User およびPassword を設定します。
Google Drive 内のCSV への接続
デスクトップアプリケーションからのGoogle への認証には、InitiateOAuth をGETANDREFRESH に設定して、接続してください。詳細はドキュメントの「Google Drive への接続」を参照してください。
組み込みの接続文字列デザイナー
JDBC URL の構築には、CSV JDBC Driver に組み込まれている接続文字列デザイナーを使用してください。JAR ファイルをダブルクリックするか、コマンドラインから JAR ファイルを実行します。
java -jar cdata.jdbc.csv.jar
接続プロパティを入力し、接続文字列をクリップボードにコピーします。
一般的な JDBC URL は次のようになります。
jdbc:csv:DataSource=MyCSVFilesFolder;
CData JDBC Driver for CSV からコピーした JDBC URL を Edit new database に入力します。
- Drivers の下にある「(+) Add」ボタンをクリックします。Drivers ボードに「newLine」が表示されます。新しい行の末尾にある (...) をクリックし、Install a new module ラジオボタンを選択して、(...) をクリックしてインストールディレクトリの「lib」サブフォルダにある JAR ファイルへのパスを追加します。OK をクリックします。
- Driver Class として cdata.jdbc.csv(前のステップで指定したインストールディレクトリから取得した JAR ファイル)を選択します。
新しい接続のテスト
- Check Connection をクリックします。入力した詳細が正しければ、「Connection successful」という確認プロンプトが表示されます。「OK」と「Finish」をクリックします。
- 接続が確立されたら、新しく作成した接続を右クリックし、Retrieve Schema を選択します。フィルターを使用して必要なデータを取得することもできます。Next をクリックします。
- Schema ウィンドウで「CData」カタログを展開し、CSV スキーマからインポートするテーブルを選択します。Next をクリックします。
- 次のステップで、テーブルから表示するカラムを選択し、Finish をクリックします。
- CSV スキーマから選択したすべてのテーブルが、JDBC 接続の Table Schemas セクションに表示されます。
- 選択したテーブルのいずれかを右クリックし、Data Viewer をクリックしてデータソースからのデータをプレビューします。
おわりに
CData JDBC Driver for CSV の30日間無償トライアルをダウンロードして、Talend Cloud Data Management Platform で CSV データを連携しましょう。ご不明な点があれば、サポートチームにお問い合わせください。