CData SSIS Components を使用して PingOne のデータを Google BigQuery にマイグレーション

Cameron Leblanc
Technology Evangelist

CData SSIS Tasks for PingOne と Google BigQuery を使用して、PingOne のデータを Google BigQuery に簡単にプッシュできます。

Google BigQuery は、サーバーレスで高いスケーラビリティとコスト効率を備えたデータウェアハウスであり、組織がビッグデータを実用的なインサイトに変換できるよう設計されています。

CData SSIS Components は、SQL Server Integration Services を拡張し、さまざまなソースやデスティネーションからデータを簡単にインポート・エクスポートできるようにします。

この記事では、BigQuery へのエクスポート時のデータ型マッピングの考慮事項を確認し、CData SSIS Components for PingOne と BigQuery を使用してPingOne のデータを Google BigQuery にマイグレーションする方法を説明します。

データ型マッピング

Google BigQuery スキーマ	CData スキーマ
STRING, GEOGRAPHY, JSON, INTERVAL	string
BYTES	binary
INTEGER	long
FLOAT	double
NUMERIC, BIGNUMERIC	decimal
BOOLEAN	bool
DATE	date
TIME	time
DATETIME, TIMESTAMP	datetime
STRUCT	下記参照
ARRAY	下記参照

STRUCT 型と ARRAY 型

Google BigQuery は、1 つの行に複合値を格納するための STRUCT と ARRAY という 2 種類の型をサポートしています。Google BigQuery の一部では、これらは RECORD 型および REPEATED 型としても知られています。

STRUCT は、名前でアクセスでき、異なる型を持つことができる固定サイズの値のグループです。コンポーネントは struct をフラット化し、ドット表記の名前でフィールドにアクセスできるようにします。これらのドット表記の名前は引用符で囲む必要があることに注意してください。

ARRAY は、同じ型の値で任意のサイズを持つことができるグループです。コンポーネントは配列を単一の複合値として扱い、JSON 集約として報告します。これらの型は組み合わせることができ、STRUCT 型が ARRAY フィールドを含んだり、ARRAY フィールドが STRUCT 値のリストになったりする場合があります。

特別な考慮事項

Google BigQuery には、DATETIME（タイムゾーンなし）と TIMESTAMP（タイムゾーンあり）の両方のデータ型があり、CData SSIS Components はローカルマシンのタイムゾーンに基づいて datetime にマッピングします。
Google BigQuery では、NUMERIC 型は 38 桁の精度と小数点以下最大 9 桁をサポートし、BIGNUMERIC 型は 76 桁の精度と小数点以下最大 38 桁をサポートします。CData SSIS Components for Google BigQuery は精度/スケールを自動検出しますが、Destination コンポーネントでは高精度カラムを手動でマッピングできます。
INTERVAL データ型：
- コンポーネントは INTERVAL 型を文字列として表現します。クエリで INTERVAL 型が必要な場合は、BigQuery SQL の INTERVAL フォーマットを使用して INTERVAL を指定する必要があります：
```
YEAR-MONTH DAY HOUR:MINUTE:SECOND.FRACTION
```
- 例えば、「5 年と 11 ヶ月、マイナス 10 日と 3 時間と 2.5 秒」という値は正しいフォーマットでは以下のようになります：
```
5-11 -10 -3:0:0.2.5
```

前提条件

Visual Studio 2022
Visual Studio 2022 用 SQL Server Integration Services Projects 拡張機能
CData SSIS Components for Google BigQuery
CData SSIS Components for PingOne

プロジェクトの作成とコンポーネントの追加

Visual Studio を開き、新しい Integration Services プロジェクトを作成します。
Control Flow 画面に新しい Data Flow Task を追加し、Data Flow Task を開きます。
Data Flow Task に CData PingOne Source コントロールと CData GoogleBigQuery Destination コントロールを追加します。

PingOne ソースの設定

以下の手順に従って、PingOne への接続に必要なプロパティを指定します。

CData PingOne Source をダブルクリックしてソースコンポーネントエディタを開き、新しい接続を追加します。
CData PingOne Connection Manager で接続プロパティを設定し、接続をテストして保存します。
PingOne に接続するには以下のプロパティを設定します。
- Region：自身のPingOne 組織のデータがホスティングされている地域。
- AuthScheme：PingOne に接続する際に使用する認証の種類。
- WorkerAppEnvironmentId （デフォルトのPingOne ドメインを使用する場合に必要）、またはAuthorizationServerURL のいずれかで、下で説明するように設定します。
WorkerAppEnvironmentId の設定

WorkerAppEnvironmentId は、Worker アプリケーションが存在するPingOne 環境のID です。このパラメータは、環境がデフォルトのPingOne ドメイン（auth.pingone）を利用している場合のみ使用されます。これは、ヘルプドキュメントのカスタムOAuth アプリケーションの作成で説明するように、PingOne への認証に使用するカスタムOAuth アプリケーションを作成した後に設定します。

はじめに、このプロパティの値を見つけます。
1. 自身のPingOne 組織のホームページからナビゲーションサイドバーに移動し、Environments をクリックします。
2. OAuth / Worker のカスタムアプリケーションを作成した環境（通常はAdministrators）を見つけ、Manage Environment をクリックします。環境のホームページが表示されます。
3. 環境のホームページのナビゲーションサイドバーで、Applications をクリックします。
4. リストから、OAuth またはWorker アプリケーションの詳細を見つけます。
5. Environment ID フィールドの値をコピーします。以下の例に似たものになるはずです：
```
WorkerAppEnvironmentId='11e96fc7-aa4d-4a60-8196-9acf91424eca'
```
次に、WorkerAppEnvironmentId をEnvironment ID フィールドの値に設定します。

AuthorizationServerURL の設定

AuthorizationServerURL は、お使いのアプリケーションが配置されている環境のPingOne 認可サーバーのベースURL です。このプロパティは、PingOne プラットフォームAPI ドキュメントで説明されているように、環境にカスタムドメインを設定した場合にのみ使用されます。 Custom Domains を参照してください。

OAuth でのPingOne への認証

PingOne はOAuth とOAuthClient 認証の両方をサポートしています。上述の設定手順に加え、OAuth またはOAuthCliet 認証をサポートするために、さらに2つの手順を完了する必要があります。
- ヘルプドキュメントのカスタムOAuth アプリケーションの作成で説明するように、カスタムOAuth アプリケーションを作成して設定します。
- ドライバーがデータモデル内のエンティティにアクセスできるようにするには、ヘルプドキュメントのAdministrator Roles での説明のとおり、使用するアドミンユーザー / ワーカーアプリケーションに対して正しいロールを設定していることを確認してください。
- 以下のサブセクションで説明されているように、選択した認証スキームと認証フローに適切なプロパティを設定します。
OAuth（認可コードグラント）

AuthScheme をOAuth に設定します。

デスクトップアプリケーション

OAuth アクセストークンの取得およびリフレッシュ

以下を設定して、接続してください。
- InitiateOAuth：GETANDREFRESH。繰り返しOAuth の交換を行ったり、手動でOAuthAccessToken を設定する必要をなくすには、InitiateOAuth を使用します。
- OAuthClientId：カスタムOAuth アプリケーションを作成した際に取得したClient ID。
- OAuthClientSecret：カスタムOAuth アプリケーションを作成した際に取得したClient Secret。
- CallbackURL：カスタムOAuth アプリケーションの登録時に定義したリダイレクトURI。例：https://localhost:3333
接続すると、CData 製品はデフォルトブラウザでPingOne のOAuth エンドポイントを開きます。ログインして、アプリケーションにアクセス許可を与えます。ドライバーはこれでOAuth プロセスを完了します。
1. ドライバーはPingOne からアクセストークンを取得し、それを使ってデータをリクエストします。
2. OAuth 値はOAuthSettingsLocation で指定された場所に保存され、接続間で永続化されるようにします。
ドライバーはアクセストークンの期限が切れると自動的にリフレッシュします。

Web アプリケーションやヘッドレスマシン、クライアントクレデンシャルグラントを含むその他のOAuth メソッドについては、ヘルプドキュメントを参照してください。
接続を保存後、「Table or view」を選択し、Google BigQuery にエクスポートするテーブルまたはビューを選択して、CData PingOne Source Editor を閉じます。

Google BigQuery デスティネーションの設定

PingOne Source を設定したら、Google BigQuery 接続を設定してカラムをマッピングします。

CData Google BigQuery Destination をダブルクリックしてデスティネーションコンポーネントエディタを開き、新しい接続を追加します。
CData GoogleBigQuery Connection Manager で接続プロパティを設定し、接続をテストして保存します。
- Google は OAuth 認証標準を使用しています。個々のユーザーに代わって Google API にアクセスするには、埋め込み資格情報を使用するか、独自の OAuth アプリを登録できます。 OAuth を使用すると、サービスアカウントを使用して Google Apps ドメイン内のユーザーに代わって接続することもできます。サービスアカウントで認証するには、アプリケーションを登録して OAuth JWT 値を取得します。 OAuth 値に加えて、DatasetId と ProjectId を指定します。OAuth の使用ガイドについては、ヘルプドキュメントの「Getting Started」章を参照してください。
便利な接続プロパティ
- QueryPassthrough: True に設定すると、クエリは Google BigQuery に直接渡されます。
- ConvertDateTimetoGMT: True に設定すると、コンポーネントはローカルマシンの時刻ではなく、日時値を GMT に変換します。
- FlattenObjects: デフォルトでは、コンポーネントは STRUCT カラムの各フィールドを独自のカラムとして報告し、STRUCT カラム自体は非表示にします。False に設定すると、トップレベルの STRUCT は展開されず、独自のカラムとして残ります。このカラムの値は JSON 集約として報告されます。
- SupportCaseSensitiveTables: このプロパティを true に設定すると、同じ名前で大文字小文字が異なるテーブルは、すべてメタデータで報告されるように名前が変更されます。デフォルトでは、プロバイダーはテーブル名を大文字小文字を区別しないものとして扱うため、複数のテーブルが同じ名前で大文字小文字が異なる場合、メタデータでは 1 つだけが報告されます。
接続を保存後、Use a Table メニューでテーブルを選択し、Action メニューで Insert を選択します。
Column Mappings タブで、入力カラムからデスティネーションカラムへのマッピングを設定します。