CData Sync
データ変換で分析に最適なクリーンデータを実現
データの移動中に整形・標準化を適用し、後工程のモデリングやクラウドコンピューティングコストを削減します。CData Sync は、スナップショット、差分スナップショット、CDC(変更データキャプチャ)、リバース ETL ジョブにビジネスロジックや SQL ベースの変換を一貫して適用し、データの配信・保存方法を完全にコントロールできます。
トランスフォーメーションとは
CData Sync のトランスフォーメーションは、分析システムや業務システムへのデータ移行時にビジネスロジック、フィルタリング、標準化を適用することで、別途データ準備パイプラインを構築する手間やクラウドコンピューティングコストを削減します。これらのトランスフォーメーションは、スナップショット、差分スナップショット、CDC を含むすべてのレプリケーションタイプに一貫して適用されます。
トランスフォーメーションが選ばれる理由
ERP、CRM、業務システム間でスキーマを標準化し、後工程の分析を一貫性のある使いやすいテーブルで開始
ソース側で大量データをフィルタリングし、クラウドデータウェアハウスのストレージとコンピューティングコストを削減
分析可能なデータセットを取り込み時に準備し、後工程のモデリングツールへの依存を軽減
リバース ETL の同期を計算フィールドで強化し、CRM や ERP のプロセス自動化を改善
マスキングやハッシュ化などのガバナンスルールを適用し、クラウドプラットフォームに到達する前にデータ露出リスクを低減
同一の変換ロジックを使用し、スナップショット、差分スナップショット、CDC、リバース ETL ジョブ全体でメンテナンス負荷と SQL の重複を削減
トランスフォーメーションの仕組み
カラム式
レプリケーションプロセス内で SQL ロジックを直接適用し、取り込み時によりクリーンで使いやすいデータを作成します。
レプリケーション中に SQL 式を適用:
- 派生メトリクスを作成(例:total_cost = qty * unit_price)
- 日付とタイムゾーンの調整を標準化
- CASE 式を使用した条件ロジックを実装(例:CASE WHEN…)
- PII(個人識別情報)のガバナンスにハッシュ化やマスキングを適用
行・カラムフィルタリング
レプリケーションパイプラインの早い段階でデータをフィルタリングし、ストレージ、コンピューティング、処理のオーバーヘッドを削減します。
必要なデータだけを抽出:
- 非アクティブな行やアーカイブ済み履歴を除外
- 幅広いソーステーブル(700 以上のカラム)から後工程で必要なフィールドのみに絞り込み
- 大量の CDC やリバース ETL ワークロードを必要なデータスライスに限定
結合、ルックアップ、エンリッチメント
データがウェアハウスや業務システムに到達する前にデータセットをエンリッチし、後工程のモデリング作業を削減します。Sync は、ソースシステム内の既存リファレンステーブルを結合してアップストリームエンリッチメントをサポートします。
活用例:
- 財務: ERP ウェアハウスへのロード時にコストセンターテーブルを結合
- 小売: POS フィードにロケーションメタデータをマージ
- 製造・エネルギー: 高頻度の設備読み取りデータにアセットメタデータを付加
スキーママッピング
インバウンドデータを標準化・クリーンアップし、手動作業なしで予測可能な分析可能な形式でパイプラインに到達させます。
Sync で実行できるマッピング機能:
- カラム名の変更
- フィールドの並び替え
- snake_case や camelCase などの命名規則の標準化
- ウェアハウスや SaaS との互換性のためのデータ型変換
トランスフォーメーションの適用範囲
単一のトランスフォーメーション定義をすべてのレプリケーションスタイルに適用することで、パイプラインの乱立を抑え、SQL の重複を排除し、取り込みから運用同期まで一貫したロジックを実現します。
スナップショットと差分スナップショットレプリケーション
トランスフォーメーションは、リバース ETL やウェアハウスロードで EXCEPT および MINUS SQL 集合演算子を使用する、Sync の SQL ベースの変更検出エンジンの一部として実行されます。
CDC ジョブ
トランスフォーメーションは、トランザクションログからの変更ストリーム時に適用され、挿入、更新、削除全体で一貫したモデリングを実現します。リバース ETL
トランスフォーメーションは、外部 ID、ステータスインジケーター、正規化された属性を含む CRM や ERP 対応フィールドをアップサート前に作成します。業界別ユースケース
さまざまな業界の企業が、Sync のトランスフォーメーションを活用して多様なデータソースを標準化し、後工程のモデリング作業を削減し、取り込み時に分析・運用に対応したアウトプットを準備しています。
エネルギー・ユーティリティ
- SCADA(監視制御データ取得)または運用ログを分析構造に標準化
- アセットテレメトリに設備メタデータをエンリッチ
- 高頻度センサーデータのダウンサンプリングまたはフィルタリング
金融サービス
- 銀行システム間でトランザクション形式を標準化
- Snowflake や Databricks への取り込み前に PII をマスキング
- 取り込み時に派生規制メトリクスを計算
製造
- 工場全体で一貫した生産データセットを構築
- マシンログにアセットマスターデータをエンリッチ
- 予測保守に対応した特徴量セットを作成
小売・消費財
- POS、ロイヤルティ、商品カタログデータを標準化
- 属性テーブルを結合してマーチャンダイジング分析を簡素化
- リバース ETL 向けのマーケティング対応インサイトを準備