RapidMiner からAmazon Athena のデータに連携

古川えりか
古川えりか
コンテンツスペシャリスト
Amazon Athena をRapidMiner Studio の標準コンポーネント及びデータソース構成ウィザードと統合します。

この記事では、CData JDBC Driver for AmazonAthena をRapidMiner のプロセスと簡単に統合する方法を示します。この記事では、CData JDBC Driver for AmazonAthena を使用してAmazon Athena をRapidMiner のプロセスに転送します。

RapidMiner のAmazon Athena にJDBC Data Source として接続する

以下のステップに従ってAmazon Athena へのJDBC 接続を確認できます。

  1. Amazon Athena 用の新しいデータベースドライバーを追加します。[Connections]->[Manage Database Drivers]とクリックします。
  2. 表示されるウィザードで[Add]ボタンをクリックし、接続に名前を入力します。
  3. JDBC URL のプレフィックスを入力します。
    jdbc:amazonathena:
    
  4. インストールディレクトリのlib サブフォルダにあるcdata.jdbc.amazonathena.jar ファイルにパスを入力して下さい。
  5. ドライバークラスを入力します。
    cdata.jdbc.amazonathena.AmazonAthenaDriver
    
    The JDBC driver configuration.(Salesforce is shown.)
  6. 新しいAmazon Athena 接続を作成します。[Connections]->[Manage Database Connections]とクリックします。
  7. 接続の名前を入力します。
  8. データベースシステムの場合は、以前構成したAmazon Athena ドライバーを選択します。
  9. Host ボックスで接続文字列を入力します。

    Amazon Athena 接続プロパティの取得・設定方法

    それでは、早速Athena に接続していきましょう。

    データに接続するには、以下の接続パラメータを指定します。

    • DataSource:接続するAmazon Athena データソース。
    • Database:接続するAmazon Athena データベース。
    • AWSRegion:Amazon Athena データがホストされているリージョン。
    • S3StagingDirectory:クエリの結果を保存するS3 フォルダ。

    Database またはDataSource が設定されていない場合、CData 製品はAmazon Athena の利用可能なデータソースからすべてのデータベースのリスト化を試みます。そのため、両方のプロパティを設定することでCData 製品のパフォーマンスが向上します。

    Amazon Athena の認証設定

    CData 製品は幅広い認証オプションに対応しています。詳しくはヘルプドキュメントの「はじめに」を参照してみてください。

    AWS キーを取得

    IAM ユーザーの認証情報を取得するには、以下のステップお試しください。

    1. IAM コンソールにサインインします。
    2. ナビゲーションペインでユーザーを選択します。
    3. ユーザーのアクセスキーを作成または管理するには、ユーザーを選択してからセキュリティ認証情報タブに移動します。

    AWS ルートアカウントの資格情報を取得するには、以下のステップをお試しください。

    1. ルートアカウントの認証情報を使用してAWS 管理コンソールにサインインします。
    2. アカウント名または番号を選択します。
    3. 表示されたメニューでMy Security Credentials を選択します。
    4. ルートアカウントのアクセスキーを管理または作成するには、Continue to Security Credentials をクリックし、[Access Keys]セクションを展開します。

    その他の認証オプションについては、ヘルプドキュメントの「Amazon Athena への認証」を参照してください。

    ビルトイン接続文字列デザイナ

    JDBC URL の構成については、Amazon Athena JDBC Driver に組み込まれている接続文字列デザイナを使用してください。JAR ファイルのダブルクリック、またはコマンドラインからJAR ファイルを実行します。

    java -jar cdata.jdbc.amazonathena.jar
    

    接続プロパティを入力し、接続文字列をクリップボードにコピーします。

    Using the built-in connection string designer to generate a JDBC URL (Salesforce is shown.)

    以下は一般的な接続文字列です。

    AccessKey='a123';SecretKey='s123';Region='IRELAND';Database='sampledb';S3StagingDirectory='s3://bucket/staging/';
    
  10. 必要であればユーザー名とパスワードを入力します。 The connection to the JDBC data source.(Salesforce is shown.)

プロセス内の様々なRapidMiner オペレーターとのAmazon Athena 接続を使用できます。Amazon Athena を取得するには、[Operators]ビューから[Retrieve]をドラッグします。 A Retrieve operation to select data.(Salesforce is shown.) [Retrieve]オペレータを選択した状態で、[repository entry]の横にあるフォルダアイコンをクリックして[Parameters]ビューで取得するテーブルを定義できます。表示されるRepository ブラウザで接続ノードを展開し、目的のサンプルセットを選択できます。

The Repository Browser window you can use to select an example set.(Salesforce is shown.)

最後に、[Retrieve]プロセスから結果に出力をワイヤリングし、プロセスを実行してAmazon Athena を確認します。

The results of the Retrieve operation.(Salesforce is shown.)

はじめる準備はできましたか?

Amazon Athena Driver の無料トライアルをダウンロードしてお試しください:

 ダウンロード

詳細:

Amazon Athena Icon Amazon Athena JDBC Driver お問い合わせ

Amazon Athena 連携のパワフルなJava アプリケーションを素早く作成して配布。