ODBC 経由で R から Azure Data Catalog のデータ を分析

Jerod Johnson
Jerod Johnson
Senior Technology Evangelist
Microsoft R Open で Azure Data Catalog のデータ のデータビジュアライゼーションを作成し、高性能な統計関数で分析。

純粋な R スクリプトと標準 SQL で Azure Data Catalog のデータ にアクセスできます。CData ODBC ドライバ for Azure Data Catalog と RODBC パッケージを使用すると、R からリモート Azure Data Catalog のデータ を操作できます。CData ドライバを使用することで、業界で実績のある標準に準拠したドライバを活用し、人気のオープンソース言語 R でデータにアクセスできます。この記事では、ドライバを使用して Azure Data Catalog のデータ に SQL クエリを実行し、R で Azure Data Catalog のデータ を可視化する方法を説明します。

R をインストール

マルチスレッドや管理コードによるドライバのパフォーマンス向上は、マルチスレッド対応の Microsoft R Open や、BLAS/LAPACK ライブラリにリンクした R を実行することで補完できます。この記事では Microsoft R Open(MRO)を使用します。

Azure Data Catalog にODBC データソースとして接続

Azure Data Catalog への接続情報と、Windows および Linux 環境での DSN 設定手順を説明します。

Azure Data Catalog 接続プロパティの取得・設定方法

OAuth 認証で接続

Azure Data Catalog の認証にはOAuth を使用します。CData 製品では組込みOAuth が利用できるので、接続プロパティを設定することなく接続を試行するだけで、ブラウザ経由でAAS に認証できます。詳しい設定方法については、ヘルプドキュメントの「Azure Data Catalog への認証」セクションを参照してください。

設定は任意ですが、CatalogName プロパティを設定することでAzure Data Catalog から返されるカタログデータを明示的に指定できます。

CatalogName:Azure Data Catalog に紐づいているカタログ名に設定。空のままにすると、デフォルトのカタログが使用されます。カタログ名は、「Azure Portal」->「データカタログ」->「カタログ名」から取得できます。

DSN を設定する際に、Max Rows 接続プロパティも設定することをお勧めします。これにより返される行数が制限され、レポートやビジュアライゼーションの設計時のパフォーマンス向上に役立ちます。

Windows

まだ設定していない場合は、ODBC DSN(データソース名)で接続プロパティを指定します。これはドライバーインストールの最後のステップです。Microsoft ODBC データソースアドミニストレーターを使用して、ODBC DSN を作成・設定できます。

Linux

Linux 環境で CData ODBC Driver for Azure Data Catalog をインストールする場合、ドライバーのインストール時にシステム DSN が事前定義されます。システムデータソースファイル(/etc/odbc.ini)を編集して、必要な接続プロパティを定義することで DSN を変更できます。

/etc/odbc.ini

[CData AzureDataCatalog Source]
Driver = CData ODBC Driver for Azure Data Catalog
Description = My Description

これらの設定ファイルの使用方法の詳細については、ヘルプドキュメント(インストール済みまたはオンライン)を参照してください。

RODBC パッケージを読み込む

ドライバを使用するには、RODBC パッケージをダウンロードします。RStudio で、[ツール] -> [パッケージのインストール]をクリックし、[パッケージ]ボックスに RODBC と入力します。

RODBC パッケージをインストールした後、以下の行でパッケージを読み込みます。

library(RODBC)

注意:この記事では RODBC バージョン 1.3-12 を使用しています。Microsoft R Open を使用すると、Microsoft の MRAN リポジトリのチェックポイント機能を使用して同じバージョンでテストできます。 checkpoint コマンドを使用すると、MRAN リポジトリでホストされている CRAN リポジトリのスナップショットからパッケージをインストールできます。2016年1月1日のスナップショットにはバージョン 1.3-12 が含まれています。

library(checkpoint)
checkpoint("2016-01-01")

Azure Data Catalog のデータ にODBC データソースとして接続

以下の行で R から DSN に接続できます。

conn <- odbcConnect("CData AzureDataCatalog Source")

スキーマの検出

ドライバは Azure Data Catalog API をリレーショナルテーブル、ビュー、ストアドプロシージャとしてモデル化します。以下の行でテーブルの一覧を取得できます。

sqlTables(conn)

SQL クエリを実行

sqlQuery 関数を使用して、Azure Data Catalog API でサポートされている任意の SQL クエリを実行できます。

tables <- sqlQuery(conn, "SELECT DslAddressDatabase, Type FROM Tables WHERE Name = 'FactProductInventory'", believeNRows=FALSE, rows_at_time=1)

以下のコマンドでデータビューアウィンドウに結果を表示できます。

View(tables)

Azure Data Catalog のデータ をプロット

これで、CRAN リポジトリで利用可能なデータビジュアライゼーションパッケージを使用して Azure Data Catalog のデータ を分析できます。組み込みのバープロット関数を使用して、シンプルな棒グラフを作成できます。

par(las=2,ps=10,mar=c(5,15,4,2))
barplot(tables$Type, main="Azure Data Catalog Tables", names.arg = tables$DslAddressDatabase, horiz=TRUE)

はじめる準備はできましたか?

Azure Data Catalog ODBC Driver の無料トライアルをダウンロードしてお試しください:

 ダウンロード

詳細:

Azure Data Catalog Icon Azure Data Catalog ODBC Driver お問い合わせ

Azure Data Catalog ODBC Driver を使って、ODBC 接続をサポートするあらゆるアプリケーション・ツールからAzure Data Catalog にデータ連携。

Azure Data Catalog データにデータベースと同感覚でアクセスして、Azure Data Catalog データに使い慣れたODBC インターフェースで連携。