Informatica Cloud で Hive のデータ を連携

Jerod Johnson
Jerod Johnson
Senior Technology Evangelist
CData JDBC ドライバーと Informatica Cloud Secure Agent を使用して、Informatica Cloud から Hive のデータ にリアルタイム接続。

Informatica Cloud は、クラウド上で抽出、変換、ロード(ETL)タスクを実行できるツールです。Cloud Secure Agent と CData JDBC Driver for Apache Hive を組み合わせることで、Informatica Cloud から直接 Hive のデータ にリアルタイムでアクセスできます。本記事では、Cloud Secure Agent のダウンロードと登録、JDBC ドライバーを介した Hive への接続、そして Informatica Cloud のプロセスで使用可能なマッピングの作成方法をご紹介します。

Informatica Cloud Secure Agent

JDBC ドライバー経由で Hive のデータ に接続するには、Cloud Secure Agent をインストールします。

  1. Informatica Cloud の Administrator ページに移動します
  2. Runtime Environments タブを選択します
  3. 「Download Secure Agent」をクリックします
  4. Install Token をメモしておきます
  5. クライアントマシンでインストーラを実行し、ユーザー名と Install Token を使って Cloud Secure Agent を登録します

NOTE: Cloud Secure Agent のすべてのサービスが起動するまでに、しばらく時間がかかる場合があります。

Hive JDBC Driver への接続

Cloud Secure Agent のインストールと起動が完了したら、JDBC ドライバーを介して Hive に接続する準備が整いました。

Secure Agent マシンへの JDBC ドライバーの追加

  1. Secure Agent マシンの以下のディレクトリに移動します:
    %Secure Agent installation directory%/ext/connectors/thirdparty/
  2. 設定するマッピングの種類に応じて、フォルダを作成しドライバーの JAR ファイル(cdata.jdbc.apachehive.jar)を追加します。

    マッピングの場合は、以下のフォルダを作成してドライバーの JAR ファイルを追加します:

    informatica.jdbc_v2/common

    アドバンスドモードのマッピングの場合は、以下のフォルダも作成してドライバーの JAR ファイルを追加します:

    informatica.jdbc_v2/spark
  3. Secure Agent を再起動します。

Informatica Cloud での Hive への接続

ドライバーの JAR ファイルをインストールしたら、Informatica Cloud で Hive への接続を設定します。Connections タブをクリックし、New Connection をクリックして、以下のプロパティを入力します:
  • Connection Name: 接続に名前を付けます(例:CData Hive Connection)
  • Type:「JDBC_V2」を選択します
  • Runtime Environment: Secure Agent をインストールしたランタイム環境を選択します
  • JDBC Driver Class Name: JDBC ドライバークラス名を入力します:cdata.jdbc.apachehive.ApacheHiveDriver
  • JDBC Connection URL: Hive の JDBC URL を設定します。URL は以下のようになります:

    jdbc:apachehive:Server=127.0.0.1;Port=10000;TransportMode=BINARY;

    Apache Hive への接続を確立するには以下を指定します。

    • Server:HiveServer2 をホストするサーバーのホスト名またはIP アドレスに設定。
    • Port:HiveServer2 インスタンスへの接続用のポートに設定。
    • TransportMode:Hive サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
    • AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。
    • CData 製品においてTLS/SSL を有効化するには、UseSSL をTrue に設定します

    組み込みの接続文字列デザイナー

    JDBC URL の作成には、Hive JDBC Driver に組み込まれている接続文字列デザイナーを使用できます。.jar ファイルをダブルクリックするか、コマンドラインから実行してください。

        java -jar cdata.jdbc.apachehive.jar
        

    接続プロパティを入力し、接続文字列をクリップボードにコピーします。

  • Username: プレースホルダー値を設定します(Hive はユーザー名を必要としないため)
  • Password: プレースホルダー値を設定します(Hive はパスワードを必要としないため)

Hive のデータ のマッピングを作成

Hive への接続を設定したら、Informatica の任意のプロセスで Hive のデータ にアクセスできます。以下の手順では、Hive から別のデータターゲットへのマッピングを作成する方法を説明します。

  1. Data Integration ページに移動します
  2. New.. をクリックし、Mappings タブから Mapping を選択します
  3. Source Object をクリックし、Source タブで Connection を選択し、Source Type を設定します
  4. 「Select」をクリックして、マッピングするテーブルを選択します
  5. Fields タブで、マッピングする Hive テーブルのフィールドを選択します
  6. Target オブジェクトをクリックし、Target ソース、テーブル、フィールドを設定します。Field Mapping タブで、ソースフィールドをターゲットフィールドにマッピングします。

マッピングの設定が完了すると、Informatica Cloud でサポートされている任意の接続先と Hive のデータ のリアルタイム連携を開始できます。CData JDBC Driver for Apache Hive の30日間無償トライアルをダウンロードして、Informatica Cloud で Hive のデータ の活用を今すぐ始めましょう。

はじめる準備はできましたか?

Apache Hive Driver の無料トライアルをダウンロードしてお試しください:

 ダウンロード

詳細:

Apache Hive Icon Apache Hive JDBC Driver お問い合わせ

Apache Hive 互換ディストリビューション連携のパワフルなJava アプリケーションを素早く作成して配布。