ODBC 経由で R から Google Drive のデータ を分析

Jerod Johnson
Jerod Johnson
Senior Technology Evangelist
Microsoft R Open で Google Drive のデータ のデータビジュアライゼーションを作成し、高性能な統計関数で分析。

純粋な R スクリプトと標準 SQL で Google Drive のデータ にアクセスできます。CData ODBC ドライバ for Google Drive と RODBC パッケージを使用すると、R からリモート Google Drive のデータ を操作できます。CData ドライバを使用することで、業界で実績のある標準に準拠したドライバを活用し、人気のオープンソース言語 R でデータにアクセスできます。この記事では、ドライバを使用して Google Drive のデータ に SQL クエリを実行し、R で Google Drive のデータ を可視化する方法を説明します。

R をインストール

マルチスレッドや管理コードによるドライバのパフォーマンス向上は、マルチスレッド対応の Microsoft R Open や、BLAS/LAPACK ライブラリにリンクした R を実行することで補完できます。この記事では Microsoft R Open(MRO)を使用します。

Google Drive にODBC データソースとして接続

Google Drive への接続情報と、Windows および Linux 環境での DSN 設定手順を説明します。

Google Drive はOAuth 認証標準を利用しています。各ユーザーやドメイン内のユーザーの代わりに、CData 製品がGoogle API にアクセスすることを許可できます。 接続すると、CData 製品はデフォルトブラウザでOAuth エンドポイントを開きます。ログインして、アプリケーションにアクセス許可を与えます。CData 製品がOAuth プロセスを完了します。

詳細はヘルプドキュメントを参照してください。

尚、CData 製品はGoogle Drive のファイルの一覧表示やユーザー管理情報の取得用です。Google Drive に保管されているExcel、CSV、JSON などのファイル内のデータを読み込みたい場合には、Excel DriverCSV DriverJSON Driver をご利用ください。

DSN を設定する際に、Max Rows 接続プロパティも設定することをお勧めします。これにより返される行数が制限され、レポートやビジュアライゼーションの設計時のパフォーマンス向上に役立ちます。

Windows

まだ設定していない場合は、ODBC DSN(データソース名)で接続プロパティを指定します。これはドライバーインストールの最後のステップです。Microsoft ODBC データソースアドミニストレーターを使用して、ODBC DSN を作成・設定できます。

Linux

Linux 環境で CData ODBC Driver for Google Drive をインストールする場合、ドライバーのインストール時にシステム DSN が事前定義されます。システムデータソースファイル(/etc/odbc.ini)を編集して、必要な接続プロパティを定義することで DSN を変更できます。

/etc/odbc.ini

[CData GoogleDrive Source]
Driver = CData ODBC Driver for Google Drive
Description = My Description

これらの設定ファイルの使用方法の詳細については、ヘルプドキュメント(インストール済みまたはオンライン)を参照してください。

RODBC パッケージを読み込む

ドライバを使用するには、RODBC パッケージをダウンロードします。RStudio で、[ツール] -> [パッケージのインストール]をクリックし、[パッケージ]ボックスに RODBC と入力します。

RODBC パッケージをインストールした後、以下の行でパッケージを読み込みます。

library(RODBC)

注意:この記事では RODBC バージョン 1.3-12 を使用しています。Microsoft R Open を使用すると、Microsoft の MRAN リポジトリのチェックポイント機能を使用して同じバージョンでテストできます。 checkpoint コマンドを使用すると、MRAN リポジトリでホストされている CRAN リポジトリのスナップショットからパッケージをインストールできます。2016年1月1日のスナップショットにはバージョン 1.3-12 が含まれています。

library(checkpoint)
checkpoint("2016-01-01")

Google Drive のデータ にODBC データソースとして接続

以下の行で R から DSN に接続できます。

conn <- odbcConnect("CData GoogleDrive Source")

スキーマの検出

ドライバは Google Drive API をリレーショナルテーブル、ビュー、ストアドプロシージャとしてモデル化します。以下の行でテーブルの一覧を取得できます。

sqlTables(conn)

SQL クエリを実行

sqlQuery 関数を使用して、Google Drive API でサポートされている任意の SQL クエリを実行できます。

files <- sqlQuery(conn, "SELECT Name, Size FROM Files", believeNRows=FALSE, rows_at_time=1)

以下のコマンドでデータビューアウィンドウに結果を表示できます。

View(files)

Google Drive のデータ をプロット

これで、CRAN リポジトリで利用可能なデータビジュアライゼーションパッケージを使用して Google Drive のデータ を分析できます。組み込みのバープロット関数を使用して、シンプルな棒グラフを作成できます。

par(las=2,ps=10,mar=c(5,15,4,2))
barplot(files$Size, main="Google Drive Files", names.arg = files$Name, horiz=TRUE)

はじめる準備はできましたか?

Google Drive ODBC Driver の無料トライアルをダウンロードしてお試しください:

 ダウンロード

詳細:

Google Drive Icon Google Drive ODBC Driver お問い合わせ

Google Drive ODBC Driver は、ODBC 接続をサポートするさまざまなアプリケーションからGoogle ドライブのリアルタイムデータ連携を実現するパワフルなツールです.

データベースにアクセスするときと同感覚でGoogle ドライブデータにアクセスし、標準ODBC Driver インターフェースを通じてFiles、Changes、Apps、etc. にアクセス。