SSIS で SQL Server から Hive へのデータフローを構築

Jerod Johnson
Jerod Johnson
Senior Technology Evangelist
CData SSIS Tasks for Hive を使用して、SQL Server データを Hive に簡単にプッシュできます。

SQL Server データベースは、エンタープライズレコードの保存に広く使用されています。このデータを他の場所に移動する必要がある場合がよくあります。CData SSIS Task for Hive を使用すると、Hive のデータを簡単に転送できます。この記事では、SQL Server から Hive にデータをエクスポートする方法を説明します。

ソースとデスティネーションコンポーネントの追加

まず、新しい ADO.NET Source コントロールと新しい Hive Destination コントロールを Data Flow Task に追加します。

ADO.NET ソースの設定

以下の手順に従って、SQL Server インスタンスへの接続に必要なプロパティを指定します。

  1. ADO.NET Source を開き、新しい接続を追加します。ここでサーバーとデータベースの情報を入力します。
  2. Data access mode メニューで「Table or view」を選択し、Hive にエクスポートするテーブルまたはビューを選択します。
  3. ADO NET Source ウィザードを閉じ、デスティネーションコンポーネントに接続します。

Hive 用の新しい Connection Manager を作成

以下の手順に従って、Connection Manager で必要な接続プロパティを設定します。

  1. 新しい Connection Manager を作成します:Connection Manager ウィンドウで右クリックし、New Connection をクリックします。Add SSIS Connection Manager ダイアログが表示されます。
  2. メニューから CData ApacheHive Connection Manager を選択します。
  3. 接続プロパティを設定します。

    Apache Hive への接続を確立するには以下を指定します。

    • Server:HiveServer2 をホストするサーバーのホスト名またはIP アドレスに設定。
    • Port:HiveServer2 インスタンスへの接続用のポートに設定。
    • TransportMode:Hive サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
    • AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。
    • CData 製品においてTLS/SSL を有効化するには、UseSSL をTrue に設定します

Hive デスティネーションの設定

デスティネーションコンポーネントの Connection Manager で、SQL Server ソーステーブルから Hive デスティネーションテーブルへのマッピングと、Hive のデータに対して実行するアクションを定義します。この記事では、Customers エンティティを Hive に挿入します。

  1. Hive Destination をダブルクリックして、デスティネーションコンポーネントエディタを開きます。
  2. Connection Managers タブで、先ほど作成した Connection Manager を選択します。
  3. Use a Table メニューで Customers を選択します。 Action メニューで Insert を選択します。
  4. Column Mappings タブで、入力カラムからデスティネーションカラムへのマッピングを設定します。

プロジェクトの実行

これでプロジェクトを実行できます。 SSIS Task の実行が完了すると、SQL テーブルのデータが選択したテーブルにエクスポートされます。

はじめる準備はできましたか?

Apache Hive SSIS Component の無料トライアルをダウンロードしてお試しください:

 ダウンロード

詳細:

Apache Hive Icon Apache Hive SSIS Components お問い合わせ

SSIS ソース元 & 接続先コンポーネントは、SQL Server SSIS のワークフロー内で簡単にApache Hive 互換ディストリビューションに接続できるパワフルなツールです。

データフロー内のHive コンポーネントを使ってApache Hive を同期できます。データ同期、ローカルバックアップ、ワークフローの自動化などに最適!