Apache Spark でAirtable のデータをSQL で操作する方法

杉本和也
リードエンジニア

CData JDBC ドライバーを使用して、Apache Spark でAirtable にデータ連携。

Apache Spark は大規模データ処理のための高速エンジンです。CData JDBC Driver for Airtable と組み合わせると、Spark はリアルタイムでAirtable のデータに連携して処理ができます。本記事では、Spark シェルに接続してAirtable をクエリする方法について解説します。

CData JDBC Driver は、最適化されたデータ処理がドライバーに組み込まれているため、リアルタイムAirtable と対話するための高いパフォーマンスを提供します。Airtable に複雑なSQL クエリを発行すると、ドライバーはフィルタや集計など、サポートされているSQL操作を直接Airtable にプッシュし、組込みSQL エンジンを使用してサポートされていない操作（SQL 関数やJOIN 操作）をクライアント側で処理します。組み込みの動的メタデータクエリを使用すると、ネイティブデータ型を使用してAirtable を操作して分析できます。

CData JDBC Driver for Airtable をインストール

まずは、本記事右側のサイドバーからAirtable JDBC Driver の無償トライアルをダウンロード・インストールしてください。30日間無償で、製品版の全機能が使用できます。

Spark Shell を起動してAirtable のデータに接続

ターミナルを開き、Spark shell でCData JDBC Driver for Airtable JAR file をjars パラメータに設定します:
```
$ spark-shell --jars /CData/CData JDBC Driver for Airtable/lib/cdata.jdbc.airtable.jar
```
Shell でJDBC URL を使ってAirtable に接続し、SQL Context load() function でテーブルを読み込みます。
Airtable への接続

それでは、Airtable に接続していきましょう。CData 製品は、Airtable にテーブルとビューを要求します。 Schema プロパティ（オプション）を使用すると、表示されるテーブルおよびビューを特定のベースに制限できます。特定のベースに制限したい場合は、このプロパティを使用するスキーマの名前に設定してください。（これはAirtable のBase 名に相当します。）

すべてのAirtable Bases に加えて、DataModelInformation という名前の静的スキーマもご利用いただけます。このスキーマでは、Bases、Tables、Users のような静的テーブルをクエリできます。 DisplayObjectIds がTrue に設定されている場合、Schema の値は名前ではなくAirtable Base id に設定する必要があります。

Airtableへの認証

続いて、認証方法を設定しましょう。個人用アクセストークンまたはOAuth PKCE のいずれかを使用してAirtable に認証できます。

個人用アクセストークン

個人用アクセストークンをまだ生成していない場合は、以下のステップで生成してみましょう。
1. ユーザーアカウントにログインします
2. "https://airtable.com/create/tokens" に移動します
3. Create new token をクリックします
4. Scopes で、Add a scope をクリックして以下の各スコープを追加します
  - data.records:read
  - data.records:write
  - schema.bases:read
5. Access で、トークンにアクセス権を付与するすべてのワークスペースとベースを追加します
6. Create token をクリックしてトークンを生成します。生成されたトークンは一度しか表示されませんので、必ずコピーして保存してください
次に、以下の設定を行います。
- AuthScheme：PersonalAccessToken
- Token：先ほど生成した個人用アクセストークンの値
OAuth PKCE については、 href="/kb/help/" target="_blank">ヘルプドキュメントの「はじめに」をご確認ください。

組み込みの接続文字列デザイナー

JDBC 接続文字列URL の作成には、Airtable JDBC Driver にビルトインされたデザイナを使用できます。JAR ファイルをダブルクリックするか、コマンドラインでJAR ファイルを実行するとデザイナが開きます。
```
java -jar cdata.jdbc.airtable.jar
```
接続プロパティを入力し、接続文字列をクリップボードにコピーします。
```
scala> val airtable_df = spark.sqlContext.read.format("jdbc").option("url", "jdbc:airtable:APIKey=keymz3adb53RqsU;BaseId=appxxN2fe34r3rjdG7;TableNames=TableA,...;ViewNames=TableA.ViewA,...;").option("dbtable","SampleTable_1").option("driver","cdata.jdbc.airtable.AirtableDriver").load()
```
接続が完了し、データがロードされたら、テーブルスキーマが表示されます。
Airtable をテンポラリーテーブルとして登録します:
```
scala> airtable_df.registerTable("sampletable_1")
```
データに対して、次のようなカスタムSQL クエリを実行します。
```
scala> airtable_df.sqlContext.sql("SELECT Id, Column1 FROM SampleTable_1 WHERE Column1 = Value1").collect.foreach(println)
```
コンソールで、次のようなAirtable のデータを取得できました！これでAirtable との連携は完了です。