【ノーコード】複数のSpark アカウントのデータを簡単レプリケーション

宮本航太
プロダクトスペシャリスト

複数Spark アカウント（sandbox/本番など）連携の複雑さをCData Sync でノーコード解決。テーブルprefix・スキーマ分離で環境別の管理も簡単、自動同期を実現する手順を詳解。

CData Sync は、いろいろなシナリオのデータレプリケーション（同期）を行うことができるスタンドアロンのアプリケーションです。例えば、sandbox および本番インスタンスのデータをデータベースに同期することができます。CData Sync のウェブインターフェースは複数のSpark コネクションを簡単に管理できます。本記事では、複数のSpark アカウントを一つのデータベースに同期する方法を説明します。

レプリケーションの同期先を設定

CData Sync では、Spark のデータを何台のデータベースにでも複製できます。データベースはクラウドおよびオンプレミスの双方に対応しています。レプリケーションの同期先の設定には、［接続］タブから行います。

［同期先］タブを選択します。
同期先のアイコンをクリックします。本記事では、SQLite を使います。
必要な接続プロパティを入力します。Spark をSQLite に複製するには、データソースボックスにファイルパスを指定します。
［接続のテスト］をクリックして、正しく接続できているかをテストします。
［変更を保存］をクリックします。

Spark 接続の設定

データソース側にSpark を設定します。［接続］タブをクリックします。

［接続の追加］セクションで［データソース］タブを選択します。
Spark アイコンをデータソースとして選択します。プリインストールされたソースにSpark がない場合には、追加データソースとしてダウンロードします。
接続プロパティに入力をします。

SparkSQL への接続

SparkSQL への接続を確立するには以下を指定します。
- Server：SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
- Port：SparkSQL インスタンスへの接続用のポートに設定。
- TransportMode：SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
- AuthScheme：使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。
Databricks への接続

Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note：必要な値は、「クラスター」に移動して目的のクラスターを選択し、「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。
- Server：Databricks クラスターのサーバーのホスト名に設定。
- Port：443
- TransportMode：HTTP
- HTTPPath：Databricks クラスターのHTTP パスに設定。
- UseSSL：True
- AuthScheme：PLAIN
- User：'token' に設定。
- Password：パーソナルアクセストークンに設定（値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます）。
［接続のテスト］をクリックして、正しく接続できているかをテストします。
［変更を保存］をクリックします。

それぞれのSpark インスタンスのレプリケーションクエリの設定

Data Sync はレプリケーションをコントロールするSQL クエリを簡単なGUI 操作で設定できます。レプリケーションジョブ設定には、［ジョブ］タブに進み、［ジョブを追加］ボタンをクリックします。次にデータソースおよび同期先をそれぞれドロップダウンから選択します。レプリケーションジョブのソースおよび同期先を選択。

テーブル全体をレプリケーションする

テーブル全体をレプリケーションするには、［テーブル］セクションで［テーブルを追加］をクリックします。表示されたテーブルリストからレプリケーションするテーブルをチェックします。.

テーブルをカスタマイズしてレプリケーションする

SQL クエリを使って、レプリケーションをカスタマイズできます。REPLICATE 構文はデータベースのテーブルにデータをキャッシュし、保存するハイレベルコマンドです。Spark API がサポートするSELECT クエリを定義することができます。レプリケーションのカスタマイズにはテーブルセクションで［カスタムクエリの追加］をクリックして、クエリステートメントを記述します。

Spark のデータのテーブルを差分更新でキャッシュするステートメントは次のとおり:

REPLICATE Customers;

使用するレプリケーションクエリを含むファイルを指定することで特定のデータベースを更新することが可能です。レプリケーションステートメントをセミコロンで区切ります。次のオプションは一つのデータベースに複数のSpark アカウントのデータを同期する例です:

REPLICATE SELECT ステートメントで異なるtable prefix を使用する:
```
REPLICATE PROD_Customers SELECT * FROM Customers;
```
別の方法として、異なるスキーマを使うことも可能です:
```
REPLICATE PROD.Customers SELECT * FROM Customers;
```

レプリケーションのスケジュール起動

［スケジュール］セクションでは、レプリケーションジョブの自動起動スケジュール設定が可能です。反復同期間隔は、15分おきから毎月1回までの間で設定が可能です。

レプリケーションジョブを設定したら、［変更を保存］します。このように複数のSpark アカウントのデータを複製するジョブを作成することができました。

はじめる準備はできましたか？

詳細はこちら、または無料トライアルにお申し込みください：

CData Sync お問い合わせ

【ノーコード】複数のSpark アカウントのデータを簡単レプリケーション

レプリケーションの同期先を設定

Spark 接続の設定

SparkSQL への接続

Databricks への接続

それぞれのSpark インスタンスのレプリケーションクエリの設定

テーブル全体をレプリケーションする

テーブルをカスタマイズしてレプリケーションする

レプリケーションのスケジュール起動

はじめる準備はできましたか？

この記事の内容

関連記事