【ノーコード】SAS でAmazon Athena データを可視化・分析する方法
SAS は、高度なアナリティクス、多変量解析、BI、データ管理、予測分析のためのソフトウェアです。SAS とCData ODBC Driver for AmazonAthena を合わせて使うことで、SAS からリアルタイムAmazon Athena のデータへデータベースライクにアクセスできるようになり、レポーティング、分析能力を向上できます。本記事では、SAS でAmazon Athena のライブラリを作成し、リアルタイムAmazon Athena に基づいたシンプルなレポートを作成します。
CData ODBC ドライバーは、ドライバーに組み込まれた最適化されたデータ処理により、SAS でリアルタイムAmazon Athena のデータを送受信する場合に圧倒的なパフォーマンスを提供します。SAS からAmazon Athena に複雑なSQL クエリを発行すると、ドライバーはフィルタや集計などのサポートされているSQL 操作をAmazon Athena に直接プッシュし、組み込みSQL エンジンを利用して、サポートされていない操作(一般的にはSQL 関数とJOIN 操作)をクライアント側で処理します。組み込みの動的メタデータクエリを使用すると、SAS でAmazon Athena を簡単にビジュアライズおよび分析できます。
CData ODBC ドライバとは?
CData ODBC ドライバは、以下のような特徴を持ったリアルタイムデータ連携ソリューションです。
- Amazon Athena をはじめとする、CRM、MA、会計ツールなど多様なカテゴリの270種類以上のSaaS / オンプレミスデータソースに対応
- 多様なアプリケーション、ツールにAmazon Athena のデータを連携
- ノーコードでの手軽な接続設定
- 標準 SQL での柔軟なデータ読み込み・書き込み
CData ODBC ドライバでは、1.データソースとしてAmazon Athena の接続を設定、2.SAS 側でODBC Driver との接続を設定、という2つのステップだけでデータソースに接続できます。以下に具体的な設定手順を説明します。
CData ODBC ドライバのインストールとAmazon Athena への接続設定
まずは、本記事右側のサイドバーからAmazonAthena ODBC Driver の無償トライアルをダウンロード・インストールしてください。30日間無償で、製品版の全機能が使用できます。
以下は、Amazon Athena に接続するための情報と、Windows およびLinux 環境でDSN を構成するためのステップです。
Amazon Athena 接続プロパティの取得・設定方法
それでは、早速Athena に接続していきましょう。
データに接続するには、以下の接続パラメータを指定します。
- DataSource:接続するAmazon Athena データソース。
- Database:接続するAmazon Athena データベース。
- AWSRegion:Amazon Athena データがホストされているリージョン。
- S3StagingDirectory:クエリの結果を保存するS3 フォルダ。
Database またはDataSource が設定されていない場合、CData 製品はAmazon Athena の利用可能なデータソースからすべてのデータベースのリスト化を試みます。そのため、両方のプロパティを設定することでCData 製品のパフォーマンスが向上します。
Amazon Athena の認証設定
CData 製品は幅広い認証オプションに対応しています。詳しくはヘルプドキュメントの「はじめに」を参照してみてください。
AWS キーを取得
IAM ユーザーの認証情報を取得するには、以下のステップお試しください。
- IAM コンソールにサインインします。
- ナビゲーションペインでユーザーを選択します。
- ユーザーのアクセスキーを作成または管理するには、ユーザーを選択してからセキュリティ認証情報タブに移動します。
AWS ルートアカウントの資格情報を取得するには、以下のステップをお試しください。
- ルートアカウントの認証情報を使用してAWS 管理コンソールにサインインします。
- アカウント名または番号を選択します。
- 表示されたメニューでMy Security Credentials を選択します。
- ルートアカウントのアクセスキーを管理または作成するには、Continue to Security Credentials をクリックし、[Access Keys]セクションを展開します。
その他の認証オプションについては、ヘルプドキュメントの「Amazon Athena への認証」を参照してください。
DSN を構成する際に、Max Rows プロパティを定めることも可能です。これによって返される行数を制限するため、ビジュアライゼーション・レポートのデザイン時のパフォーマンスを向上させるのに役立ちます。
Windows
未指定の場合は、初めにODBC DSN(data source name)で接続プロパティを指定します。ドライバーのインストールの最後にアドミニストレーターが開きます。Microsoft ODBC Data Source Administrator を使用して、ODBC DSN を作成および構成できます。
Linux
Linux 環境にCData ODBC Driver for AmazonAthena をインストールする場合、ドライバーのインストールによりシステムDSN が事前定義されます。システムデータソースファイル(/etc/odbc.ini) を編集し、必要な接続プロパティを定義することで、DSN を変更できます。
/etc/odbc.ini
[CData AmazonAthena Sys] Driver = CData ODBC Driver for AmazonAthena Description = My Description AccessKey = 'a123' SecretKey = 's123' Region = 'IRELAND' Database = 'sampledb' S3StagingDirectory = 's3://bucket/staging/'
これらの構成ファイルの使用に関する具体的な情報については、ヘルプドキュメントを参照してください。
SAS でAmazon Athena ライブラリを作成
CData ODBC Driver for AmazonAthena に基づくライブラリを追加することで、SAS でAmazon Athena に接続します。
- SAS を開き、[Explorer]ペインで[Libraries]を展開します。
- [Active Libraries]ウィンドウで右クリックし、[New]を選択します。
- ライブラリに名前を付け(odbclib)、Engine としてODBC を選択し、ライブラリをセッション間で保持する場合は[Enable at startup]をクリックします。
- Data Source を以前構成したDSN に設定し、[OK]をクリックします。
Amazon Athena クエリからビューを作成
SAS は、ローコードのポイントアンドクリッククエリツールを使用するか、PROC SQL とカスタムSQL クエリのプログラムを使うことで、データのクエリをネイティブにサポートします。SAS でビューを作成すると、ビューがクエリされるたびに定義クエリが実行されます。これは、レポート、チャート、分析について常にリアルタイムAmazon Athena のデータにクエリを実行することを意味します。
クエリツールの使用
- SAS で[Tools]->[Query]と進みます。
- データをプルするテーブルソースとテーブルを選択し、[OK]をクリックします。
- カラムを選択し、右クリックしてフィルタリング、順序付け、グループ化などを追加します。
- [SQL Query Tool]ウィンドウを右クリックして[Show Query]を選択し、[Create View]をクリックして、クエリの結果を含むローカルビューを作成します。ビューに名前を付け、[OK] をクリックします。
PROC SQL の使用
- SAS で、[Editor]ウィンドウに移動します。
- PROC SQL を使用してデータをクエリし、ローカルビューを作成します。
Note:このステップにより、[Work]ライブラリにビューが作成されます。オプションとして、create view ステートメントでライブラリを指定できます。proc sql; create view customers_view as select name, totaldue from odbclib.customers where CustomerId = '12345'; quit; - [Run]->[Submit]とクリックしてクエリを実行し、ローカルビューを作成します。
SAS のAmazon Athena のデータに関するレポートまたはビジュアライズ
ローカルビューを作成すると、パワフルなSAS 機能を使用してAmazon Athena のデータをレポート、ビジュアライズ、またはその他の方法で分析できます。PROC PRINT を使用して簡単なレポートを印刷し、PROC GCHART を使用してデータに基づいた基本的なグラフを作成しましょう。
HTML を印刷
- SAS で、[Editor]ウィンドウに移動します。
- PROC PRINT を使用してAmazon Athena Customers データのHTML レポートを印刷します。
proc print data=customers; title "Amazon Athena Customers Data"; run;
チャートを印刷
- SAS で、[Editor]ウィンドウに移動します。
- PROC GCHART を使用してCustomers データのチャートを作成します。
proc gchart data=customers; pie name / sumvar=totaldue value=arrow percent=arrow noheading percent=inside plabel=(height=12pt) slice=inside value=none name='CustomersChart'; run;
Amazon Athena からSAS へのデータ連携には、ぜひCData ODBC ドライバをご利用ください
このようにCData ODBC ドライバと併用することで、270を超えるSaaS、NoSQL データをコーディングなしで扱うことができます。30日の無償評価版が利用できますので、ぜひ自社で使っているクラウドサービスやNoSQL と合わせて活用してみてください。
CData ODBC ドライバは日本のユーザー向けに、UI の日本語化、ドキュメントの日本語化、日本語でのテクニカルサポートを提供しています。