Aqua Data Studio で Spark のデータに接続

Jerod Johnson
Senior Technology Evangelist

Visual Query Builder やテーブルデータエディターなど、Aqua Data Studio のツールから Spark のデータにアクセスできます。

CData JDBC Driver for Spark は、Aqua Data Studio などの IDE のウィザードや分析機能と Spark のデータを連携できます。本記事では、接続マネージャーを使って Spark のデータに接続し、クエリを実行する方法を説明します。

JDBC データソースの作成

接続マネージャーを使用して接続プロパティを定義し、新しい JDBC データソースとして保存できます。作成した Spark データソースは、Aqua Data Studio の各ツールからアクセスできるようになります。

Aqua Data Studio で、Servers メニューから Register Server を選択します。
Register Server フォームで、「Generic - JDBC」接続を選択します。
以下の JDBC 接続プロパティを入力します：
- Name: データソースの名前を入力します（例：Spark）。
- Driver Location: Browse ボタンをクリックし、インストールディレクトリの lib サブフォルダにある cdata.jdbc.sparksql.jar ファイルを選択します。
- Driver: ドライバーのクラス名 cdata.jdbc.sparksql.SparkSQLDriver を入力します。
- URL: JDBC URL を入力します。URL は jdbc:sparksql: から始まり、その後にセミコロン区切りで接続プロパティを指定します。
  
  SparkSQL への接続
  
  SparkSQL への接続を確立するには以下を指定します。
  - Server：SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
  - Port：SparkSQL インスタンスへの接続用のポートに設定。
  - TransportMode：SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
  - AuthScheme：使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。
  Databricks への接続
  
  Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note：必要な値は、「クラスター」に移動して目的のクラスターを選択し、「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。
  - Server：Databricks クラスターのサーバーのホスト名に設定。
  - Port：443
  - TransportMode：HTTP
  - HTTPPath：Databricks クラスターのHTTP パスに設定。
  - UseSSL：True
  - AuthScheme：PLAIN
  - User：'token' に設定。
  - Password：パーソナルアクセストークンに設定（値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます）。
  組み込みの接続文字列デザイナー
  
  JDBC URL の作成には、Spark JDBC Driver に組み込まれている接続文字列デザイナーをご利用いただけます。JAR ファイルをダブルクリックするか、コマンドラインから JAR ファイルを実行してください。
```
java -jar cdata.jdbc.sparksql.jar
```
  接続プロパティを入力し、接続文字列をクリップボードにコピーします。
  一般的な JDBC URL は以下のとおりです：
```
jdbc:sparksql:Server=127.0.0.1;
```