複数Spark アカウントをレプリケーション

宮本航太
プロダクトスペシャリスト

複数のSpark アカウントを、1つあるいは多数のデータベースにレプリケーション。

CData Sync for SparkSQL は、データベースにサンドボックスや製品インスタンスをレプリケートするなどの、レプリケーションの多様なシナリオに対する解決策を提供するスタンドアロンアプリケーションです。Sync for Windows およびSync for Java はどちらもコマンドラインインターフェース（CLI）を含んでおり、複数のSpark 接続を簡単に管理できます。この記事では、CLI を使って複数のSpark アカウントをレプリケートする方法について説明します。

Spark 接続の構成

接続およびE メール通知設定をXML 設定ファイルに保存できます。複数のSpark アカウントをレプリケートするには、複数の設定ファイルを使います。以下にSpark をSQLite にレプリケートする設定例を示します。

Windows

<?xml version="1.0" encoding="UTF-8" ?>
<CDataSync>
  <DatabaseType>SQLite</DatabaseType>
  <DatabaseProvider>System.Data.SQLite</DatabaseProvider>
  <ConnectionString>Server=127.0.0.1;</ConnectionString>
  <ReplicateAll>False</ReplicateAll>
  <NotificationUserName></NotificationUserName>
  <DatabaseConnectionString>Data Source=C:\my.db</DatabaseConnectionString>
  <TaskSchedulerStartTime>09:51</TaskSchedulerStartTime>
  <TaskSchedulerInterval>Never</TaskSchedulerInterval>
</CDataSync>

Java

<?xml version="1.0" encoding="UTF-8" ?>
<CDataSync>
<DatabaseType>SQLite</DatabaseType>
  <DatabaseProvider>org.sqlite.JDBC</DatabaseProvider>
  <ConnectionString>Server=127.0.0.1;</ConnectionString>
  <ReplicateAll>False</ReplicateAll>
  <NotificationUserName></NotificationUserName>
  <DatabaseConnectionString>Data Source=C:\my.db</DatabaseConnectionString>
</CDataSync>

SparkSQL への接続

SparkSQL への接続を確立するには以下を指定します。

Server：SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
Port：SparkSQL インスタンスへの接続用のポートに設定。
TransportMode：SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
AuthScheme：使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

Databricks への接続

Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note：必要な値は、「クラスター」に移動して目的のクラスターを選択し、「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。

Server：Databricks クラスターのサーバーのホスト名に設定。
Port：443
TransportMode：HTTP
HTTPPath：Databricks クラスターのHTTP パスに設定。
UseSSL：True
AuthScheme：PLAIN
User：'token' に設定。
Password：パーソナルアクセストークンに設定（値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます）。

各Spark インスタンスにクエリを設定

Sync を使うと標準SQL でレプリケーションを制御できます。REPLICATE ステートメントはハイレベルなコマンドで、データベースにテーブルをキャッシュして維持します。Spark API がサポートするあらゆるSELECT クエリを定義できます。下記のステートメントは、Spark のデータのテーブルをキャッシュしてインクリメンタルに更新します。

REPLICATE Customers;

特定のデータベースを更新するために使用するレプリケーションクエリを含むファイルを指定することができます。レプリケーションステートメントはセミコロンで区切ります。次のオプションは、複数のSpark アカウントを同じデータベースにレプリケートする場合に便利です。

REPLICATE SELECT ステートメントでは、異なるテーブルのプレフィックスを使用できます。

REPLICATE PROD_Customers SELECT * FROM Customers

異なるスキーマを使用することもできます。

REPLICATE PROD.Customers SELECT * FROM Customers

Sync の実行

接続文字列およびレプリケーションクエリの設定が完了したら、次のコマンドラインオプションを使ってSync を実行できます。

Windows

SparkSQLSync.exe -g MyProductionSparkSQLConfig.xml -f MyProductionSparkSQLSync.sql

Java

java -Xbootclasspath/p:c:\sqlitejdbc.jar -jar SparkSQLSync.jar -g MyProductionSparkSQLConfig.xml -f MyProductionSparkSQLSync.sql

はじめる準備はできましたか？

詳細はこちら、または無料トライアルにお申し込みください：

CData Sync お問い合わせ

複数Spark アカウントをレプリケーション

Spark 接続の構成

Windows

Java

SparkSQL への接続

Databricks への接続

各Spark インスタンスにクエリを設定

Sync の実行

Windows

Java

はじめる準備はできましたか？

この記事の内容

関連記事