Airbyte ELT パイプラインで CSV のデータに接続
Airbyte は、データウェアハウス、データレイク、データベースなど、あらゆるデータストアにデータをロードできる強力なツールです。CData Connect AI と組み合わせることで、Airbyte ユーザーはリアルタイムの CSV のデータ から直接 Extract, Load, Transform(ELT)パイプラインを作成できます。本記事では、Connect AI を通じて CSV に接続し、Airbyte 内で CSV のデータ の ELT パイプラインを構築する手順を説明します。
CData Connect AI は CSV 専用の SQL Server インターフェースを提供し、ネイティブデータベースへのデータレプリケーションを行うことなくデータをクエリできます。最適化されたデータ処理機能を内蔵しており、フィルタや JOIN を含むサポート対象のすべての SQL 操作を CSV に直接転送します。これにより、サーバーサイド処理を活用して目的の CSV のデータ を高速に取得できます。
Airbyte 用に CSV への接続を構成
Airbyte から CSV への接続は、CData Connect AI を介して実現します。Airbyte で CSV のデータ を利用するには、まず CSV 接続を作成・設定します。
- Connect AI にログインし、Sources をクリックして、 Add Connection をクリックします
- Add Connection パネルから「CSV」を選択します
-
CSV に接続するために必要な認証プロパティを入力します。
CSV 接続プロパティの取得・設定方法
DataSource プロパティにローカルフォルダ名を設定します。
.csv、.tab、.txt ではない拡張子のファイルを扱う場合には、IncludeFiles 使用する拡張子をカンマ区切りで設定します。Microsoft Jet OLE DB 4.0 driver 準拠の場合にはExtended Properties を設定することができます。別の方法として、Schema.ini ファイルにファイル形式を記述することも可能です。
CSV ファイルの削除や更新を行う場合には、UseRowNumbers をTRUE に設定します。RowNumber はテーブルKey として扱われます。
Amazon S3 内のCSV への接続
URI をバケットおよびフォルダに設定します。さらに、次のプロパティを設定して認証します。
- AWSAccessKey:AWS アクセスキー(username)に設定。
- AWSSecretKey:AWS シークレットキーに設定。
Box 内のCSV への接続
URI をCSV ファイルを含むフォルダへのパスに設定します。Box へ認証するには、OAuth 認証標準を使います。 認証方法については、Box への接続 を参照してください。
Dropbox 内のCSV への接続
URI をCSV ファイルを含むフォルダへのパスに設定します。Dropbox へ認証するには、OAuth 認証標準を使います。 認証方法については、Dropbox への接続 を参照してください。ユーザーアカウントまたはサービスアカウントで認証できます。ユーザーアカウントフローでは、以下の接続文字列で示すように、ユーザー資格情報の接続プロパティを設定する必要はありません。
SharePoint Online SOAP 内のCSV への接続
URI をCSV ファイルを含むドキュメントライブラリに設定します。認証するには、User、Password、およびStorageBaseURL を設定します。
SharePoint Online REST 内のCSV への接続
URI をCSV ファイルを含むドキュメントライブラリに設定します。StorageBaseURL は任意です。指定しない場合、ドライバーはルートドライブで動作します。 認証するには、OAuth 認証標準を使用します。
FTP 内のCSV への接続
URI をルートフォルダとして使用されるフォルダへのパスが付いたサーバーのアドレスに設定します。認証するには、User およびPassword を設定します。
Google Drive 内のCSV への接続
デスクトップアプリケーションからのGoogle への認証には、InitiateOAuth をGETANDREFRESH に設定して、接続してください。詳細はドキュメントの「Google Drive への接続」を参照してください。
- Save & Test をクリックします
-
Add CSV Connection ページの Permissions タブに移動し、ユーザーベースの権限を更新します。
パーソナルアクセストークンの追加
REST API、OData API、または仮想 SQL Server を介して Connect AI に接続する際、パーソナルアクセストークン(PAT)を使用して Connect AI への接続を認証します。アクセスの粒度を維持するために、サービスごとに個別の PAT を作成することをお勧めします。
- Connect AI アプリの右上にある歯車アイコン()をクリックして設定ページを開きます。
- Settings ページで Access Tokens セクションに移動し、 Create PAT をクリックします。
-
PAT に名前を付けて Create をクリックします。
- パーソナルアクセストークンは作成時にのみ表示されます。必ずコピーして、将来の使用に備えて安全な場所に保存してください。
接続の設定と PAT の生成が完了したら、Airbyte から CSV のデータ に接続する準備が整いました。
Airbyte から CSV に接続
Airbyte から CData Connect AI への接続を確立するには、以下の手順に従います。
- Airbyte アカウントにログインします
- 左側のパネルで Sources をクリックし、Add New Source をクリックします
- Source Type を MSSQL Server に設定して TDS エンドポイントに接続します
- Source Name を設定します
- Host URL を tds.cdata.com に設定します
- Port を 14333 に設定します
- Database を事前に設定した接続名(例:CSV1)に設定します
- Username を Connect AI のユーザー名に設定します
- SSL Method を Encrypted (trust server certificate) に設定し、Replication Method は標準のまま、SSH Tunnel Method を No Tunnel に設定します
- (オプション)Schema にソースに適用したい値を設定します
- Password を Connect AI の PAT に設定します
- (オプション)必要な JDBC URL パラメータを入力します
- Test and Save をクリックしてデータソースを作成します。
CSV のデータ用の ELT パイプラインを作成
CSV のデータ を新しい同期先に接続するには、Sources をクリックし、Set Up Connection をクリックして同期先に接続します。上記で作成したソースと目的の同期先を選択し、Airbyte の処理が完了するまで待ちます。完了すると、接続が使用可能になります。
CData Connect AI の入手
Airbyte から 300 以上の SaaS、ビッグデータ、NoSQL ソースへのリアルタイムデータアクセスを実現するには、 CData Connect AI をぜひお試しください!