国産セルフサービスBI ツールData Knowledge でAzure Data Lake Storage のデータを分析・可視化する方法

杉本和也
杉本和也
リードエンジニア
CData ODBC Driver は、Tableau へのAzure Data Lake Storage 連携をノーコードで手軽に実現します。



今回は、クロスユーアイエス社の国産セルフサービスBI ツールData Knowledge とCData ODBC ドライバを組み合わせて、Azure Data Lake Storage のデータの分析・可視化を行う方法を紹介します。

Data Knowledge とは?

Data Knowledge は株式会社クロスユーアイエスが提供する国産セルフサービスBI ツールです。わかりやすいインターフェースとシンプルな手順でデータの可視化を行うことができ、BI ツールを使用した経験がない人でも簡単に使うことができます。

Data Knowledge紹介画像

連携シナリオ

さて、今回の記事ではData Knowledge からAzure Data Lake Storage に接続していきますが、このときに必要となるのがCData ODBC ドライバです。

Data Knowledge にはODBC を経由してExcel やAccess、SQL Server などに接続する機能が標準提供されています。この機能とCData が提供しているODBC Drivers ラインナップを組み合わせることで、各種クラウドサービスのAPI やデータベースにシームレスにアクセスすることができるようになります。

Data Knowledge ODBC接続画面

とは言っても、説明だけではイメージできない部分もあると思うので、実際に連携を試してみましょう。今回はData Knowledge とAzure Data Lake Storage のデータを組み合わせて以下のようなクロス集計の表を作ってみたいと思います。

Azure Data Lake Storage のデータのクロス集計表

手順

Azure Data Lake Storage ODBC Driver のインストール・セットアップ

まずは、CData Azure Data Lake Storage ODBC Driver を対象のマシンにインストール・セットアップします。インストーラーを立ち上げると、以下のような画面になるので、ダイアログに従ってセットアップを完了してください。

ODBC インストーラー画面

セットアップ完了後、接続設定画面が立ち上がりますので、Azure Data Lake Storage への接続情報を設定してください。

Azure Data Lake Storage 接続プロパティの取得・設定方法

Azure Data Lake Storage Gen2 への接続

それでは、Gen2 Data Lake Storage アカウントに接続していきましょう。接続するには、以下のプロパティを設定します。

  • Account:ストレージアカウントの名前
  • FileSystem:このアカウントに使用されるファイルシステム名。例えば、Azure Blob コンテナの名前
  • Directory(オプション):レプリケートされたファイルが保存される場所へのパス。パスが指定されない場合、ファイルはルートディレクトリに保存されます

Azure Data Lake Storage Gen2への認証

続いて、認証方法を設定しましょう。CData 製品では、5つの認証方法をサポートしています:アクセスキー(AccessKey)の使用、共有アクセス署名(SAS)の使用、Azure Active Directory OAuth(AzureAD)経由、Azure サービスプリンシパル(AzureServicePrincipal またはAzureServicePrincipalCert)経由、およびManaged Service Identity(AzureMSI)経由です。

アクセスキー

アクセスキーを使用して接続するには、まずADLS Gen2ストレージアカウントで利用可能なアクセスキーを取得する必要があります。

Azure ポータルでの手順は以下のとおりです:

  1. ADLS Gen2ストレージアカウントにアクセスします
  2. 設定でアクセスキーを選択します
  3. 利用可能なアクセスキーの1つの値をAccessKey 接続プロパティにコピーします

接続の準備ができたら、以下のプロパティを設定してください。

  • AuthSchemeAccessKey
  • AccessKey:先ほどAzure ポータルで取得したアクセスキーの値

共有アクセス署名(SAS)

共有アクセス署名を使用して接続するには、まずAzure Storage Explorer ツールを使用して署名を生成する必要があります。

接続の準備ができたら、以下のプロパティを設定してください。

  • AuthSchemeSAS
  • SharedAccessSignature:先ほど生成した共有アクセス署名の値

その他の認証方法については、 href="/kb/help/" target="_blank">ヘルプドキュメントの「Azure Data Lake Storage Gen2への認証」セクションをご確認ください。

あとは「接続のテスト」ボタンをクリックし、接続が成功したら、「接続ウィザード」の「OK」ボタンをクリックして保存します。

Data Knowledge へのログイン

続いてData Knowledge へログインし作業を進めていきます。

Data Knowledge ログイン画面

ログイン後以下のような画面に移動するので「メインへ移動する」をクリック。続いて「管理」をクリックして、以下のような管理画面に移動します。ここから接続設定の構成を進めていきます。

Data Knowledge 管理画面

資源サーバーの登録

Data Knowledge では最初に資源サーバーという形で接続先のRDB の情報などを管理します。ここに先程作成したCData ODBC ドライバの接続情報を指定します。

「資源サーバー」タブに移動し、「新規」をクリックします。

資源サーバータブで新規をクリック

資源サーバー登録画面が表示されるので、任意の「資源サーバーID」と「資源サーバー名」を入力します。

続いて接続設定で「個別で指定」のラジオボタンを指定し、サーバータイプを「ODBC」「ドライバ:データソースを使用する」と選択します。

認証はODBC DSN で事前に指定しているため、「指定しない」でOKです。

最後にホスト(アドレス)/データソースに先程構成したODBC DSNのシステムDSNである「CData ADLS Sys」を入力して登録します。

資源サーバー登録画面

ホストファイルの登録

続いてData Knowledge で利用するデータモデルをホストファイルという形で登録します。

「ホストファイル」タブに移動し、「新規」をクリックします。

ホストファイルタブ

任意のホストファイルID とホストファイル名を指定し、テーブル構成の「更新」をクリックしましょう。

ホストファイルIDとファイル名を指定

左メニューの資源サーバーに先程追加したAzure Data Lake Storage のデータモデルが表示されますので、ここでData Knowledge で分析したいテーブルをドラッグアンドドロップで取り込みます。

データモデルから分析したいテーブルを取り込み

以下のように取り込めればOKです。登録ボタンをクリックして保存します。

登録ボタンで保存

また、必要に応じてサンプルも登録しておきましょう。

サンプルの登録

資源ロールの権限へ対象のホストファイルの追加

ホストファイルは追加しただけだとユーザーが利用できませんので、資源ロールに権限を追加します。「資源ロール」タブに移動し、利用する資源ロールを選択します。

資源ロールに権限を追加

ホストファイルの欄から「+追加」ボタンをクリックし

追加ボタンをクリック

先程作成したホストファイルを追加します。

ホストファイルを追加

追加後、「登録」ボタンをクリックすればロールの構成は完了です。

デザインの作成

それでは登録したホストファイルをもとに実際のデータの分析・デザインの作成を行っていきましょう。まず、利用メニューに戻ります。

利用メニューボタン

デザインの管理画面から「新規」をクリックして、新しくデザインを作成していきます。

新しいデザインを作成

デザインの作成では最初に事前に登録したホストファイルを選択します。

ホストファイルを選択

ホストファイルを選択すると、次にどの項目を取り込んでデザインを選択するか?の画面に移るので、任意の項目を選択しましょう。

項目選択画面

デザインの編集画面では集計項目や並び順が調整できます。

デザインの編集画面

加工の画面ではデータの抽出条件を設定できます。

加工画面

出力画面では抽出したデータの結果をどのようなデザインで表現するか、を設定できます。今回はクロス表を表示するような構成にしてみました。

出力画面

以下のようにクロス集計の縦軸・横軸・集計項目を指定しています。

クロス集計の設定

あとは任意の名前を入力して「実行」します。

実行画面

正常に実行が完了すると、結果の表示後集計表が作成されます。

作成された集計表

おわりに

このようにCData ODBC ドライバを利用することで、各種クラウドサービスを Data Knowledge に取り込んでデザインを作成することができます。

CData ではAzure Data Lake Storage 以外にもODBC Driver を多数提供しています。270種類以上のデータソースをサポートしているので、ぜひ自社で使っているクラウドサービスやNoSQL と合わせて活用してみてください。

はじめる準備はできましたか?

Azure Data Lake Storage ODBC Driver の無料トライアルをダウンロードしてお試しください:

 ダウンロード

詳細:

Azure Data Lake Storage Icon Azure Data Lake Storage ODBC Driver お問い合わせ

Azure Data Lake Storage ODBC Driver を使って、ODBC 接続をサポートするあらゆるアプリケーション・ツールからAzure Data Lake Storage にデータ連携。

Azure Data Lake Storage にデータベースと同感覚でアクセスして、Azure Data Lake Storage データに使い慣れたODBC インターフェースで連携。