DBeaver でSpark のデータに接続

Jerod Johnson
Senior Technology Evangelist

CData ODBC Driver を使って、DBeaver からSpark に接続する方法を解説します。

NOTE: DBeaver Community Edition 23.1 以降では、レガシーODBC ドライバーが廃止されています。代わりに CData JDBC Driver を使用できます（詳細はJDBC 経由で DBeaver からSpark に接続する方法をご参照ください）。ODBC ドライバーを使用する必要がある場合は、DBeaver のドキュメントをご確認ください。

CData ODBC Driver for Apache Spark は、ODBC 標準経由でSpark のリアルタイムデータにアクセスし、使い慣れた SQL クエリで各種 BI、レポート、ETL ツールからSpark のデータを利用可能にします。この記事では、DBeaver のクエリブラウザなどのビジュアルツールを使ってSpark のデータを操作する方法を解説します。

CData ODBC ドライバーは、ドライバーに組み込まれた最適化されたデータ処理により、DBeaver でのリアルタイムSpark データ操作において卓越したパフォーマンスを実現します。DBeaver からSpark に複雑な SQL クエリを発行すると、ドライバーはフィルタや集計などのサポートされた SQL 操作を直接Spark にプッシュし、サポートされていない操作（多くの場合 SQL 関数や JOIN 操作）は組み込みの SQL エンジンを使用してクライアント側で処理します。また、動的メタデータクエリ機能を内蔵しているため、Spark のデータを効率的に管理・分析できます。

Spark への接続設定

まだ設定していない場合は、データソース名（DSN）で必要な接続プロパティを指定します。DSN の設定は Microsoft ODBC データソースアドミニストレーターを使用して行えます。これはドライバーインストールの最終ステップでもあります。Microsoft ODBC データソースアドミニストレーターを使用して DSN を作成・設定する方法については、ヘルプドキュメントの「はじめに」の章をご参照ください。

SparkSQL への接続

SparkSQL への接続を確立するには以下を指定します。

Server：SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
Port：SparkSQL インスタンスへの接続用のポートに設定。
TransportMode：SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
AuthScheme：使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

Databricks への接続

Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note：必要な値は、「クラスター」に移動して目的のクラスターを選択し、「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。

Server：Databricks クラスターのサーバーのホスト名に設定。
Port：443
TransportMode：HTTP
HTTPPath：Databricks クラスターのHTTP パスに設定。
UseSSL：True
AuthScheme：PLAIN
User：'token' に設定。
Password：パーソナルアクセストークンに設定（値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます）。

最後に、ドライバーの DSN 設定画面で「Map To WVarchar」接続プロパティを False に設定します。この設定により、文字列型が SQL_VARCHAR にマッピングされ、SQL_WVARCHAR 型が NULL として表示されるのを防ぐことができます。

DBeaver でSpark ODBC データソースに接続

DBeaver アプリケーションを開き、Database メニューから New Database Connection オプションを選択します。
「Connect to a database」ウィンドウで ODBC を選択し、Next をクリックします。
Database/Schema フィールドに DSN 名（デフォルトでは CData Spark Source）を入力します。この名前は JDBC URL にも自動的に追加されます。
Test Connection ボタンをクリックします。DBeaver が DSN を検出すると「Connected」メッセージが表示され、接続が成功した場合はドライバーの詳細情報も表示されます。