CData Sync を使用して Amazon S3 にデータをレプリケーション



Amazon S3 は、Web スケールのコンピューティングを実現・強化するためのインターネットストレージです。S3 を使用すると、いつでもどこからでも、任意の量のデータを保存・取得できます。開発者は、Amazon 自身が使用しているインフラと同等の、スケーラブルで信頼性が高く、高速でコスト効率の良いストレージを利用できます。

AWS Lake Formation は、データレイクのセットアップとセキュリティを簡素化する Amazon のサービスです。S3 内のデータの場所と、アクセスおよびセキュリティの要件を定義するだけで利用できます。Lake Formation は機械学習を使用してデータをクレンジングおよび分類し、ユーザーは任意の分析サービスや機械学習サービスでデータを活用できます。詳細については、AWS サイトのAmazon S3 およびAWS Lake Formation のドキュメントを参照してください。

Amazon S3 の設定

CData Sync を使用してエンタープライズデータを Amazon S3 にレプリケーションするには、Amazon S3 にバケットが必要です。バケットを用意すれば、あとは CData Sync がレプリケーション対象のエンティティごとに新しいサブバケットを作成したり、既存のバケットに新しいデータエンティティを追加したりするなど、すべて自動で管理します。

Amazon S3 バケットの作成

まだバケットがない場合、または新しいバケットを作成する場合は、AWS マネジメントコンソールにログインし、「S3」を検索してクリックし、「バケットを作成」をクリックします。

バケット作成ウィザードで、バケットに名前を付け、リージョンを選択し、「作成」をクリックします(必要に応じてオプションの設定や権限の設定も行えます)。

バケットの設定が完了したら、CData Sync からレプリケーション先として Amazon S3 に接続する準備が整いました。

CData Sync から Amazon S3 への接続

CData Sync は、データレプリケーションの同期先として Amazon S3 バケットに直接接続します。CData Sync がサポートする 300 以上のデータソースと組み合わせることで、マーケティングオートメーション、CRM、ERP、会計、ソーシャルメディア、コラボレーションプラットフォームなど、すべてのエンタープライズデータの単一データストアとして Amazon S3 を素早く構成できます。

S3 を同期先として認可するには、AWS 管理者アカウントまたはカスタム権限を持つ IAM ユーザーの認証情報を使用します。Access Key にアクセスキー ID を設定し、Secret Key にシークレットアクセスキーを設定します。

注意: AWS アカウント管理者として接続することも可能ですが、AWS サービスへのアクセスには IAM ユーザーの認証情報を使用することを推奨します。

Amazon Access Key と Secret Key の取得

IAM ユーザーの認証情報を取得するには、以下の手順に従います:

  1. IAM コンソールにサインインします。
  2. ナビゲーションペインで「ユーザー」を選択します。
  3. ユーザーのアクセスキーを作成または管理するには、ユーザーを選択し、「セキュリティ認証情報」タブを選択します。

AWS ルートアカウントの認証情報を取得するには、以下の手順に従います:

  1. ルートアカウントの認証情報で AWS マネジメントコンソールにサインインします。
  2. アカウント名または番号を選択し、表示されるメニューから「マイセキュリティ資格情報」を選択します。
  3. 「セキュリティ認証情報に進む」をクリックし、「アクセスキー」セクションを展開してルートアカウントのアクセスキーを管理または作成します。

Amazon S3 接続の作成

Amazon S3 に接続するには、Connections ページに移動し、Destinations タブをクリックして、Amazon S3 を選択します。

接続に名前を付け、Access Key、Secret Key、Region、Bucket プロパティを設定します。

Settings タブに戻り、「Test Connection」をクリックして接続が正しく設定されていることを確認し、「Save Changes」をクリックして接続設定を完了します。

Amazon S3 へのデータレプリケーション

Amazon S3 の設定と CData Sync の接続が完了したら、エンタープライズデータを Amazon S3 にレプリケーションする準備が整いました。レプリケーションしたいデータソースに対して、ソース接続を設定します。CData Sync には多数のデータソースが組み込まれていますが、新しいデータソース接続を簡単にダウンロードすることもできます(CData Sync アプリ内のリンクをクリックするか、データソース接続のダウンロードページに直接アクセスしてください)。

Jobs タブからレプリケーションジョブを作成し、スケジュールを設定します。ジョブの作成方法は、CData Sync 2019 概要ビデオで確認できます(ジョブ作成部分から再生されます):

CData Sync は、レプリケーション対象のエンティティごとにサブバケットを作成します。サブバケット内には、各レプリケーショントランザクションの .CSV ファイルが保存されます。エンタープライズデータは使いやすい .CSV 形式で保存され、レプリケーションごとに新しいファイルが作成されるため、CData Sync は自動的にデータの履歴を維持します。

Amazon S3 を超えて

データをレプリケーションした後は、Amazon のサービス群を使用してデータのクエリと可視化を行うことができます。CData Sync は、Amazon S3 にレプリケーションされたデータに基づいて Amazon Athena でリソースを作成するために使用できる Hive DDL ステートメントを自動生成できます。これらのリソースを設定すると、Amazon のクラウドベースのビジネスインテリジェンスサービスである Amazon QuickSight でレプリケーションデータを操作できます。

Amazon Athena の設定

Amazon Athena を使用すると、SQL で S3 データをクエリできます。Amazon S3 にレプリケーションされたデータで Amazon Athena を使用するには、Amazon Athena コンソールに移動し、`CREATE DATABASE IF NOT EXISTS ` のようなステートメントを使用して、新しいデータベースを作成するか、既存のデータベースを選択します。

データベースを選択したら、Hive DDL ステートメントを実行して外部テーブルを作成します。これにより、Amazon Athena 接続をサポートする任意のツール、アプリケーション、プラットフォームからレプリケーションデータをクエリできるようになります。

Amazon QuickSight でデータを可視化

Amazon QuickSight は、Amazon Athena データベースへの接続と可視化をネイティブでサポートしています。レプリケーションデータの可視化を開始するには、Amazon QuickSight コンソールに移動し、「新しい分析」をクリックし、「新しいデータセット」をクリックします。データセットメニューで Athena を選択し、データソースに名前を付けて、「データソースを作成」をクリックします。

可視化するデータベースとテーブルを選択し(またはカスタム SQL クエリを作成し)、ライブクエリか SPICE へのインポートかを選択し、可視化するディメンションとメジャーを選択します。

無料トライアルと詳細情報

Amazon S3 へのデータレプリケーション方法と、そのデータを他の Amazon サービスで活用する方法についてご紹介しました。CData Sync ページで詳細情報を確認し、無料トライアルをダウンロードしてください。今すぐエンタープライズデータをデータレイクに統合しましょう!ご不明な点がございましたら、サポートチームがいつでもお答えします。

始める準備はできましたか?

CData Sync の無料トライアルをダウンロード:

今すぐダウンロード