データ変換ツールTranSpeed でAzure Data Lake Storage のデータにアクセスする方法
TranSpeed はユーザックシステムが提供するノンプログラミングデータ変換ツールです。豊富な変換ロジックと様々なRDB、CSVファイルなどに対応しているのが特徴で、RPAツール Autoジョブ名人のデータ変換機能としても利用されています。本記事では、TranSpeed からCData ODBC ドライバを利用してAzure Data Lake Storage のデータを取得、CSV ファイルに出力する方法を解説します。
TranSpeed ではRDB の取り込み設定という仕組みが標準提供されており、この機能を介してSQL Server やMySQL などにアクセスできるようになっています。そして、この機能とCData が提供しているODBC Driver ラインナップを組み合わせることで、各種クラウドサービスのAPI にアクセスすることができるようになります。
CData ODBC ドライバとは?
CData ODBC ドライバは、以下のような特徴を持ったリアルタイムデータ連携ソリューションです。
- Azure Data Lake Storage をはじめとする、CRM、MA、会計ツールなど多様なカテゴリの270種類以上のSaaS / オンプレミスデータソースに対応
- 多様なアプリケーション、ツールにAzure Data Lake Storage のデータを連携
- ノーコードでの手軽な接続設定
- 標準SQL での柔軟なデータ読み込み・書き込み
CData ODBC ドライバでは、1.データソースとしてAzure Data Lake Storage の接続を設定、2.TranSpeed 側でODBC Driver との接続を設定、という2つのステップだけでデータソースに接続できます。以下に具体的な設定手順を説明します。
CData ODBC ドライバのインストールとAzure Data Lake Storage への接続設定
まずは、本記事右側のサイドバーからADLS ODBC Driver の無償トライアルをダウンロード・インストールしてください。30日間無償で、製品版の全機能が使用できます。
インストール後、ODBC DSN(データソース名)で接続プロパティを設定します。Microsoft ODBC Data Source Administrator を使用して、ODBC DSN を作成および設定できます。
Azure Data Lake Storage 接続プロパティの取得・設定方法
Azure Data Lake Storage Gen2 への接続
それでは、Gen2 Data Lake Storage アカウントに接続していきましょう。接続するには、以下のプロパティを設定します。
- Account:ストレージアカウントの名前
- FileSystem:このアカウントに使用されるファイルシステム名。例えば、Azure Blob コンテナの名前
- Directory(オプション):レプリケートされたファイルが保存される場所へのパス。パスが指定されない場合、ファイルはルートディレクトリに保存されます
Azure Data Lake Storage Gen2への認証
続いて、認証方法を設定しましょう。CData 製品では、5つの認証方法をサポートしています:アクセスキー(AccessKey)の使用、共有アクセス署名(SAS)の使用、Azure Active Directory OAuth(AzureAD)経由、Azure サービスプリンシパル(AzureServicePrincipal またはAzureServicePrincipalCert)経由、およびManaged Service Identity(AzureMSI)経由です。
アクセスキー
アクセスキーを使用して接続するには、まずADLS Gen2ストレージアカウントで利用可能なアクセスキーを取得する必要があります。
Azure ポータルでの手順は以下のとおりです:
- ADLS Gen2ストレージアカウントにアクセスします
- 設定でアクセスキーを選択します
- 利用可能なアクセスキーの1つの値をAccessKey 接続プロパティにコピーします
接続の準備ができたら、以下のプロパティを設定してください。
- AuthScheme:AccessKey
- AccessKey:先ほどAzure ポータルで取得したアクセスキーの値
共有アクセス署名(SAS)
共有アクセス署名を使用して接続するには、まずAzure Storage Explorer ツールを使用して署名を生成する必要があります。
接続の準備ができたら、以下のプロパティを設定してください。
- AuthScheme:SAS
- SharedAccessSignature:先ほど生成した共有アクセス署名の値
その他の認証方法については、 href="/kb/help/" target="_blank">ヘルプドキュメントの「Azure Data Lake Storage Gen2への認証」セクションをご確認ください。
Azure Data Lake Storage のデータをTranSpeed に連携
CData Driver の設定が完了したらTranSpeed 側の設定を進めます。まずはCData ODBC ドライバ経由でAzure Data Lake Storage へ接続するための「データベース接続定義」を追加しましょう。
- TranSpeed を立ち上げて、「マッピング設定」に移動します。
- 「データベース接続定義」に移動し「新規」ボタンをクリックします。表示される画面で「新たにデータベース接続定義を作成する」を選択し「OK」をクリック
- 先程作成したODBC DSN の情報を指定した接続情報を入力します。入力後、接続テストを実行し、正常に完了したら登録ボタンをクリックして保存します。以下は接続情報の設定例です。
プロパティ名
設定値例
備考
接続名
Azure Data Lake Storage
任意の接続名を指定します。
データベースエンジン種別
その他
接続方法
Odbc
データベース名
Azure Data Lake Storage
接続文字列
DSN=CData ADLS Source
先程作成したODBC DSNの名前をDSN=以降に指定します。
データ変換アプリケーションの作成
ODBC の接続設定を追加したら、実際にデータ変換を行うアプリケーションを作成していきましょう。マッピング設定の画面から「システム」を選択し、「新規」ボタンをクリックします。
新しく作成するデータ変換アプリケーションの内容が表示されます。今回はそのままデフォルトで作成を開始します。必要に応じて各種名称を表示すると良いでしょう。
入力データソースの設定
アプリケーション定義画面が表示されたら、まず「入力データソース」を調整していきます。今回はAzure Data Lake Storage からデータを取得するので、入力データソースのデータ種別で「データベース」を選択します。データベースを選択後、データベース接続IDとして先程作成したAzure Data Lake Storage への接続情報を指定します。
接続情報の指定が完了したら、対象となるテーブルを指定しましょう(Azure Data Lake Storage のResources など)。テーブル名を入力すると、各項目の「検索」ボタンから対象のフィールドを指定できるようになりますので、お好みのフィールドを選択してください。
出力データソースの設定
続いて出力データソースを設定します。今回はシンプルにCSVに出力する処理とするため、データ種別で「CSVテキスト」を選択しました
項目定義の構成
入力データソースと出力データソースの指定完了後、それぞれのデータソースの仲介の役割となる項目定義を追加します。
入出力マッピングの構成
最後に「入力データソース」「項目定義」「出力データソース」それぞれの項目を紐づける「入出力マッピング」を構成します。以下のような画面が表示されるので、それぞれの項目を紐づけていきましょう。
これでデータ変換アプリケーションは作成完了です。
テスト実行
それでは作成したデータ変換アプリケーションをテスト実行してみましょう。画面左上の「テスト実行」ボタンから動作確認が実施できます。以下のような画面が表示されるので「実行」をクリックします。
正常に処理が完了すると、以下のように処理件数と完了のメッセージが表示されます。
CSVファイルを確認すると、Azure Data Lake Storage のデータをもとにしたCSV ファイルが生成されています。
おわりに
このようにCData ODBC ドライバを利用することで、各種クラウドサービスをTranSpeed の接続先として利用できるようになります。また、今回は入力データソースとして利用しましたが、出力データソースとしても対応可能になっています。 CData ではAzure Data Lake Storage 以外にも250種類以上のデータソース向けにODBC Driver を提供しています。30日の無償評価版が利用できますので、ぜひ自社で使っているクラウドサービスやNoSQL と合わせて活用してみてください。
日本のユーザー向けにCData ODBC ドライバは、UI の日本語化、ドキュメントの日本語化、日本語でのテクニカルサポートを提供しています。