Apache Spark でAmazon Athena のデータをSQL で操作する方法

杉本和也
リードエンジニア

CData JDBC ドライバーを使用して、Apache Spark でAmazon Athena にデータ連携。

Apache Spark は大規模データ処理のための高速エンジンです。CData JDBC Driver for AmazonAthena と組み合わせると、Spark はリアルタイムでAmazon Athena のデータに連携して処理ができます。本記事では、Spark シェルに接続してAmazon Athena をクエリする方法について解説します。

CData JDBC Driver は、最適化されたデータ処理がドライバーに組み込まれているため、リアルタイムAmazon Athena と対話するための高いパフォーマンスを提供します。Amazon Athena に複雑なSQL クエリを発行すると、ドライバーはフィルタや集計など、サポートされているSQL操作を直接Amazon Athena にプッシュし、組込みSQL エンジンを使用してサポートされていない操作（SQL 関数やJOIN 操作）をクライアント側で処理します。組み込みの動的メタデータクエリを使用すると、ネイティブデータ型を使用してAmazon Athena を操作して分析できます。

CData JDBC Driver for AmazonAthena をインストール

まずは、本記事右側のサイドバーからAmazonAthena JDBC Driver の無償トライアルをダウンロード・インストールしてください。30日間無償で、製品版の全機能が使用できます。

Spark Shell を起動してAmazon Athena のデータに接続

ターミナルを開き、Spark shell でCData JDBC Driver for AmazonAthena JAR file をjars パラメータに設定します:
```
$ spark-shell --jars /CData/CData JDBC Driver for AmazonAthena/lib/cdata.jdbc.amazonathena.jar
```
Shell でJDBC URL を使ってAmazon Athena に接続し、SQL Context load() function でテーブルを読み込みます。
Amazon Athena 接続プロパティの取得・設定方法

それでは、早速Athena に接続していきましょう。

データに接続するには、以下の接続パラメータを指定します。
- DataSource：接続するAmazon Athena データソース。
- Database：接続するAmazon Athena データベース。
- AWSRegion：Amazon Athena データがホストされているリージョン。
- S3StagingDirectory：クエリの結果を保存するS3 フォルダ。
Database またはDataSource が設定されていない場合、CData 製品はAmazon Athena の利用可能なデータソースからすべてのデータベースのリスト化を試みます。そのため、両方のプロパティを設定することでCData 製品のパフォーマンスが向上します。
Amazon Athena の認証設定

CData 製品は幅広い認証オプションに対応しています。詳しくはヘルプドキュメントの「はじめに」を参照してみてください。

AWS キーを取得

IAM ユーザーの認証情報を取得するには、以下のステップお試しください。
1. IAM コンソールにサインインします。
2. ナビゲーションペインでユーザーを選択します。
3. ユーザーのアクセスキーを作成または管理するには、ユーザーを選択してからセキュリティ認証情報タブに移動します。
AWS ルートアカウントの資格情報を取得するには、以下のステップをお試しください。
1. ルートアカウントの認証情報を使用してAWS 管理コンソールにサインインします。
2. アカウント名または番号を選択します。
3. 表示されたメニューでMy Security Credentials を選択します。
4. ルートアカウントのアクセスキーを管理または作成するには、Continue to Security Credentials をクリックし、［Access Keys］セクションを展開します。
その他の認証オプションについては、ヘルプドキュメントの「Amazon Athena への認証」を参照してください。

組み込みの接続文字列デザイナー

JDBC 接続文字列URL の作成には、Amazon Athena JDBC Driver にビルトインされたデザイナを使用できます。JAR ファイルをダブルクリックするか、コマンドラインでJAR ファイルを実行するとデザイナが開きます。
```
java -jar cdata.jdbc.amazonathena.jar
```
接続プロパティを入力し、接続文字列をクリップボードにコピーします。
```
scala> val amazonathena_df = spark.sqlContext.read.format("jdbc").option("url", "jdbc:amazonathena:AccessKey='a123';SecretKey='s123';Region='IRELAND';Database='sampledb';S3StagingDirectory='s3://bucket/staging/';").option("dbtable","Customers").option("driver","cdata.jdbc.amazonathena.AmazonAthenaDriver").load()
```
接続が完了し、データがロードされたら、テーブルスキーマが表示されます。
Amazon Athena をテンポラリーテーブルとして登録します:
```
scala> amazonathena_df.registerTable("customers")
```
データに対して、次のようなカスタムSQL クエリを実行します。
```
scala> amazonathena_df.sqlContext.sql("SELECT Name, TotalDue FROM Customers WHERE CustomerId = 12345").collect.foreach(println)
```
コンソールで、次のようなAmazon Athena のデータを取得できました！これでAmazon Athena との連携は完了です。