DBArtisan で Spark のデータを JDBC データソースとして管理

Jerod Johnson
Senior Technology Evangelist

DBArtisan のウィザードを使用して、Spark の JDBC データソースを作成します。

CData JDBC Driver for Spark を使えば、Spark のデータをデータベースとしてアクセスできるようになり、DBArtisan などのデータベース管理ツールとシームレスに連携できます。この記事では、DBArtisan で Spark の JDBC データソースを作成する方法を説明します。一度接続すれば、データを視覚的に編集したり、標準 SQL を実行したりすることができます。

Spark のデータを DBArtisan プロジェクトに統合

以下のステップに従って、プロジェクトに Spark のデータをデータベースインスタンスとして登録します。

DBArtisan で、Data Source -> Register Datasource をクリックします。
Generic JDBC を選択します。
Manage をクリックします。
表示されたダイアログで、New をクリックします。ドライバーの名前を入力し、Add をクリックします。次に表示されるダイアログで、ドライバー JAR ファイルを指定します。ドライバー JAR はインストールディレクトリの lib サブフォルダ内にあります。
Connection URL ボックスに、資格情報やその他の必要な接続プロパティを JDBC URL 形式で入力します。
SparkSQL への接続

SparkSQL への接続を確立するには以下を指定します。
- Server：SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
- Port：SparkSQL インスタンスへの接続用のポートに設定。
- TransportMode：SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
- AuthScheme：使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。
Databricks への接続

Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note：必要な値は、「クラスター」に移動して目的のクラスターを選択し、「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。
- Server：Databricks クラスターのサーバーのホスト名に設定。
- Port：443
- TransportMode：HTTP
- HTTPPath：Databricks クラスターのHTTP パスに設定。
- UseSSL：True
- AuthScheme：PLAIN
- User：'token' に設定。
- Password：パーソナルアクセストークンに設定（値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます）。
組み込みの接続文字列デザイナー

JDBC URL の構成には、Spark JDBC Driver に組み込まれている接続文字列デザイナーを使用できます。JAR ファイルをダブルクリックするか、コマンドラインから JAR ファイルを実行します。
```
java -jar cdata.jdbc.sparksql.jar
```
接続プロパティを入力し、接続文字列をクリップボードにコピーします。

一般的な接続文字列は以下のとおりです。
```
jdbc:sparksql:Server=127.0.0.1;
```
ウィザードを完了して、Spark のデータに接続します。Spark エンティティが Datasource Explorer に表示されます。