ODBC 経由で R から Azure Data Lake Storage のデータ を分析

Jerod Johnson
Jerod Johnson
Senior Technology Evangelist
Microsoft R Open で Azure Data Lake Storage のデータ のデータビジュアライゼーションを作成し、高性能な統計関数で分析。

純粋な R スクリプトと標準 SQL で Azure Data Lake Storage のデータ にアクセスできます。CData ODBC ドライバ for Azure Data Lake Storage と RODBC パッケージを使用すると、R からリモート Azure Data Lake Storage のデータ を操作できます。CData ドライバを使用することで、業界で実績のある標準に準拠したドライバを活用し、人気のオープンソース言語 R でデータにアクセスできます。この記事では、ドライバを使用して Azure Data Lake Storage のデータ に SQL クエリを実行し、R で Azure Data Lake Storage のデータ を可視化する方法を説明します。

R をインストール

マルチスレッドや管理コードによるドライバのパフォーマンス向上は、マルチスレッド対応の Microsoft R Open や、BLAS/LAPACK ライブラリにリンクした R を実行することで補完できます。この記事では Microsoft R Open(MRO)を使用します。

Azure Data Lake Storage にODBC データソースとして接続

Azure Data Lake Storage への接続情報と、Windows および Linux 環境での DSN 設定手順を説明します。

Azure Data Lake Storage 接続プロパティの取得・設定方法

Azure Data Lake Storage Gen2 への接続

それでは、Gen2 Data Lake Storage アカウントに接続していきましょう。接続するには、以下のプロパティを設定します。

  • Account:ストレージアカウントの名前
  • FileSystem:このアカウントに使用されるファイルシステム名。例えば、Azure Blob コンテナの名前
  • Directory(オプション):レプリケートされたファイルが保存される場所へのパス。パスが指定されない場合、ファイルはルートディレクトリに保存されます

Azure Data Lake Storage Gen2への認証

続いて、認証方法を設定しましょう。CData 製品では、5つの認証方法をサポートしています:アクセスキー(AccessKey)の使用、共有アクセス署名(SAS)の使用、Azure Active Directory OAuth(AzureAD)経由、Azure サービスプリンシパル(AzureServicePrincipal またはAzureServicePrincipalCert)経由、およびManaged Service Identity(AzureMSI)経由です。

アクセスキー

アクセスキーを使用して接続するには、まずADLS Gen2ストレージアカウントで利用可能なアクセスキーを取得する必要があります。

Azure ポータルでの手順は以下のとおりです:

  1. ADLS Gen2ストレージアカウントにアクセスします
  2. 設定でアクセスキーを選択します
  3. 利用可能なアクセスキーの1つの値をAccessKey 接続プロパティにコピーします

接続の準備ができたら、以下のプロパティを設定してください。

  • AuthSchemeAccessKey
  • AccessKey:先ほどAzure ポータルで取得したアクセスキーの値

共有アクセス署名(SAS)

共有アクセス署名を使用して接続するには、まずAzure Storage Explorer ツールを使用して署名を生成する必要があります。

接続の準備ができたら、以下のプロパティを設定してください。

  • AuthSchemeSAS
  • SharedAccessSignature:先ほど生成した共有アクセス署名の値

その他の認証方法については、 href="/kb/help/" target="_blank">ヘルプドキュメントの「Azure Data Lake Storage Gen2への認証」セクションをご確認ください。

DSN を設定する際に、Max Rows 接続プロパティも設定することをお勧めします。これにより返される行数が制限され、レポートやビジュアライゼーションの設計時のパフォーマンス向上に役立ちます。

Windows

まだ設定していない場合は、ODBC DSN(データソース名)で接続プロパティを指定します。これはドライバーインストールの最後のステップです。Microsoft ODBC データソースアドミニストレーターを使用して、ODBC DSN を作成・設定できます。

Linux

Linux 環境で CData ODBC Driver for Azure Data Lake Storage をインストールする場合、ドライバーのインストール時にシステム DSN が事前定義されます。システムデータソースファイル(/etc/odbc.ini)を編集して、必要な接続プロパティを定義することで DSN を変更できます。

/etc/odbc.ini

[CData ADLS Source]
Driver = CData ODBC Driver for Azure Data Lake Storage
Description = My Description
Schema = ADLSGen2
Account = myAccount
FileSystem = myFileSystem
AccessKey = myAccessKey

これらの設定ファイルの使用方法の詳細については、ヘルプドキュメント(インストール済みまたはオンライン)を参照してください。

RODBC パッケージを読み込む

ドライバを使用するには、RODBC パッケージをダウンロードします。RStudio で、[ツール] -> [パッケージのインストール]をクリックし、[パッケージ]ボックスに RODBC と入力します。

RODBC パッケージをインストールした後、以下の行でパッケージを読み込みます。

library(RODBC)

注意:この記事では RODBC バージョン 1.3-12 を使用しています。Microsoft R Open を使用すると、Microsoft の MRAN リポジトリのチェックポイント機能を使用して同じバージョンでテストできます。 checkpoint コマンドを使用すると、MRAN リポジトリでホストされている CRAN リポジトリのスナップショットからパッケージをインストールできます。2016年1月1日のスナップショットにはバージョン 1.3-12 が含まれています。

library(checkpoint)
checkpoint("2016-01-01")

Azure Data Lake Storage のデータ にODBC データソースとして接続

以下の行で R から DSN に接続できます。

conn <- odbcConnect("CData ADLS Source")

スキーマの検出

ドライバは Azure Data Lake Storage API をリレーショナルテーブル、ビュー、ストアドプロシージャとしてモデル化します。以下の行でテーブルの一覧を取得できます。

sqlTables(conn)

SQL クエリを実行

sqlQuery 関数を使用して、Azure Data Lake Storage API でサポートされている任意の SQL クエリを実行できます。

resources <- sqlQuery(conn, "SELECT FullPath, Permission FROM Resources WHERE Type = 'FILE'", believeNRows=FALSE, rows_at_time=1)

以下のコマンドでデータビューアウィンドウに結果を表示できます。

View(resources)

Azure Data Lake Storage のデータ をプロット

これで、CRAN リポジトリで利用可能なデータビジュアライゼーションパッケージを使用して Azure Data Lake Storage のデータ を分析できます。組み込みのバープロット関数を使用して、シンプルな棒グラフを作成できます。

par(las=2,ps=10,mar=c(5,15,4,2))
barplot(resources$Permission, main="Azure Data Lake Storage Resources", names.arg = resources$FullPath, horiz=TRUE)

はじめる準備はできましたか?

Azure Data Lake Storage ODBC Driver の無料トライアルをダウンロードしてお試しください:

 ダウンロード

詳細:

Azure Data Lake Storage Icon Azure Data Lake Storage ODBC Driver お問い合わせ

Azure Data Lake Storage ODBC Driver を使って、ODBC 接続をサポートするあらゆるアプリケーション・ツールからAzure Data Lake Storage にデータ連携。

Azure Data Lake Storage にデータベースと同感覚でアクセスして、Azure Data Lake Storage データに使い慣れたODBC インターフェースで連携。