DBeaver からAzure Data Lake Storage のデータに連携して可視化する方法とは?
CData JDBC Driver for ADLS は、IDE からBI ツールまで、サードパーティーツールからAzure Data Lake Storage のデータの読み書きを可能にするJDBC 標準を提供します。本記事では、DBeaver のウィザードを使ってAzure Data Lake Storage のデータに接続し、GUI 上でデータを参照する方法を紹介します。
CData JDBC ドライバとは?
CData JDBC ドライバは、以下の特徴を持ったリアルタイムデータ接続ツールです。
- Azure Data Lake Storage をはじめとする、CRM、MA、グループウェア、広告、会計ツールなど多様な270種類以上のSaaS / DB に対応
- DBeaver を含む多様なアプリケーション、ツールにAzure Data Lake Storage のデータを連携
- ノーコードでの手軽な接続設定
- 標準 SQL での柔軟なデータ読み込み・書き込み
CData JDBC ドライバでは、1.データソースとしてAzure Data Lake Storage の接続を設定、2.DBeaver 側でJDBC Driver との接続を設定、という2つのステップだけでデータソースに接続できます。以下に具体的な設定手順を説明します。
CData JDBC ドライバのインストールとAzure Data Lake Storage への接続設定
まずは、本記事右側のサイドバーからADLS JDBC Driver の無償トライアルをダウンロード・インストールしてください。30日間無償で、製品版の全機能が使用できます。
次に、以下の手順でDBeaver にドライバーのJAR ファイルをロードします。
- DBeaver アプリケーションを開き、「データベース」メニューの「ドライバーマネジャー」オプションを選択します。「新規」をクリックして「新しいドライバを作成する」フォームを開きます。
- 設定タブで:
- ドライバ名をわかりやすい名前に設定します(例:CData JDBC Driver for Azure Data Lake Storage)。
- クラス名をJDBC ドライバーのクラス名「cdata.jdbc.adls.ADLSDriver」に設定します。
- URL テンプレートをjdbc:adls: に設定します。
- ライブラリタブで「ファイルを追加」をクリックし、インストールディレクトリ(C:\Program Files\CData\CData JDBC Driver for Azure Data Lake Storage XXXX\)の「lib」フォルダに移動してJAR ファイル(cdata.jdbc.ADLS.jar)を選択します。
Azure Data Lake Storage のデータの接続を作成
以下の手順で、認証情報およびその他の必要な接続プロパティを追加します。
- 「データベース」メニューで、「新しい接続」をクリックします。
- 表示される「新しい接続を作成する」 ウィザードで、先ほど作成したドライバー(例:CData JDBC Driver for Azure Data Lake Storage)を選択し、「次へ >」をクリックします。
- 設定ウィザードの一般タブで、以下を参考に必要な接続プロパティを使用してJDBC URL を設定します。
Azure Data Lake Storage 接続プロパティの取得・設定方法
Azure Data Lake Storage Gen2 への接続
それでは、Gen2 Data Lake Storage アカウントに接続していきましょう。接続するには、以下のプロパティを設定します。
- Account:ストレージアカウントの名前
- FileSystem:このアカウントに使用されるファイルシステム名。例えば、Azure Blob コンテナの名前
- Directory(オプション):レプリケートされたファイルが保存される場所へのパス。パスが指定されない場合、ファイルはルートディレクトリに保存されます
Azure Data Lake Storage Gen2への認証
続いて、認証方法を設定しましょう。CData 製品では、5つの認証方法をサポートしています:アクセスキー(AccessKey)の使用、共有アクセス署名(SAS)の使用、Azure Active Directory OAuth(AzureAD)経由、Azure サービスプリンシパル(AzureServicePrincipal またはAzureServicePrincipalCert)経由、およびManaged Service Identity(AzureMSI)経由です。
アクセスキー
アクセスキーを使用して接続するには、まずADLS Gen2ストレージアカウントで利用可能なアクセスキーを取得する必要があります。
Azure ポータルでの手順は以下のとおりです:
- ADLS Gen2ストレージアカウントにアクセスします
- 設定でアクセスキーを選択します
- 利用可能なアクセスキーの1つの値をAccessKey 接続プロパティにコピーします
接続の準備ができたら、以下のプロパティを設定してください。
- AuthScheme:AccessKey
- AccessKey:先ほどAzure ポータルで取得したアクセスキーの値
共有アクセス署名(SAS)
共有アクセス署名を使用して接続するには、まずAzure Storage Explorer ツールを使用して署名を生成する必要があります。
接続の準備ができたら、以下のプロパティを設定してください。
- AuthScheme:SAS
- SharedAccessSignature:先ほど生成した共有アクセス署名の値
その他の認証方法については、 href="/kb/help/" target="_blank">ヘルプドキュメントの「Azure Data Lake Storage Gen2への認証」セクションをご確認ください。
組み込みの接続文字列デザイナー
JDBC URL の作成の補助として、Azure Data Lake Storage JDBC Driver に組み込まれている接続文字列デザイナーが使用できます。JAR ファイルをダブルクリックするか、コマンドラインからjar ファイルを実行します。
java -jar cdata.jdbc.adls.jar
接続プロパティを入力し、接続文字列をクリップボードにコピーします。
一般的な接続文字列:
jdbc:adls:Schema=ADLSGen2;Account=myAccount;FileSystem=myFileSystem;AccessKey=myAccessKey;
- 「テスト接続」をクリックして、接続が正しく設定されていることを確認します。
- 「終了」をクリックします。
Azure Data Lake Storage のデータにクエリを実行
これで、接続できたことで公開されたテーブルのデータにクエリを実行できるようになりました。テーブルを右クリックし、「ビュー表」をクリックします。「データ」タブでデータを確認できます。