Amazon QuickSight で MySQL 接続を使用して Hive のデータにアクセス

Jerod Johnson
Senior Technology Evangelist

Amazon QuickSight で MySQL 接続を使用して Hive に接続し、Hive のデータのビジュアライゼーションを構築する方法を紹介します。

Amazon QuickSight を使用すると、AWS データソース、アップロードしたファイル、クラウド上の他のデータベースからビジュアライゼーションの構築、分析の実行、インサイトの取得を素早く行うことができます。CData SQL Gateway と組み合わせることで、オンプレミスとクラウドの両方で 250種類以上のビッグデータ、NoSQL、SaaS ソースに対して同じ機能を利用できます。本記事では、SQL Gateway と CData ODBC Driver for Hive を使用して、Amazon QuickSight の MySQL 接続経由でHive のデータにアクセスする方法を説明します。直接クエリを使用したリアルタイムアクセス、または SPICE へのデータインポートのどちらも可能です。

Hive のデータに接続

まだ行っていない場合は、データソース名（DSN）で必要な接続プロパティの値を指定してください。組み込みの Microsoft ODBC データソースアドミニストレーターを使用して DSN を設定できます。これはドライバーインストールの最後のステップでもあります。Microsoft ODBC データソースアドミニストレーターを使用して DSN を作成・設定する方法については、ヘルプドキュメントの「はじめに」の章を参照してください。

Apache Hive への接続を確立するには以下を指定します。

Server：HiveServer2 をホストするサーバーのホスト名またはIP アドレスに設定。
Port：HiveServer2 インスタンスへの接続用のポートに設定。
TransportMode：Hive サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
AuthScheme：使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。
CData 製品においてTLS/SSL を有効化するには、UseSSL をTrue に設定します

DSN を設定する際に、Max Rows 接続プロパティも設定することをお勧めします。これにより返される行数を制限でき、レポートやビジュアライゼーションを設計する際のパフォーマンス向上に特に効果的です。

SQL Gateway を設定

SQL Gateway 概要を参照して、Hive のデータを仮想 MySQL データベースとして接続を設定してください。クライアントからの MySQL リクエストをリッスンする MySQL リモーティングサービスを設定します。サービスは SQL Gateway UI で設定できます。

SQL Gateway で MySQL リモーティングサービスを作成（Salesforce の例）

QuickSight から SQL Gateway に接続するには、インターネット接続可能なマシンで SQL Gateway を実行する必要があります。SQL Gateway を設定した後、以下の情報をメモしておいてください。

SQL Gateway をホストしているマシンの IP アドレスまたはドメイン名
MySQL サービスのデータソース名（通常は CData ApacheHive Sys）
MySQL サービスのポート番号
サービスへのアクセス権を持つ SQL Gateway ユーザーの資格情報

リモートアクセスの設定

ODBC Driver とリモーティングサービスがオンプレミスにインストールされている（Amazon QuickSight からアクセスできない）場合は、リバース SSH トンネリング機能を使用してリモートアクセスを有効にできます。詳細な手順については、Knowledge Base の記事「SQL Gateway SSH トンネリング機能」を参照してください。

QuickSight で Hive に接続

Hive ODBC Driver 用に MySQL サービスを設定したら、QuickSight でデータに接続する準備が整いました。QuickSight コンソールにログインし、「Manage Data」をクリックしてから「New Data Set」をクリックし、データソースとして MySQL を選択します。

SQL Gateway で設定した Hive 用の MySQL サービスの値を使用してデータセットを設定します（データベース名には DSN を使用してください）。接続を検証し、「Create Data Source」をクリックします。

QuickSight で Hive のデータを可視化

本記事では、データビジュアライゼーションにカスタム SQL クエリを使用します。「Edit/Preview Data」をクリックし、表示される Data Prep 画面で以下の手順に従います。

データセットに名前を付けます（例：Customers）。
データを QuickSight SPICE にインポートする場合は SPICE オプションをクリックします。そうでない場合は、QuickSight がデータを直接クエリします。
Tables メニューの下で「Switch to Custom SQL Tool」をクリックします。
- SQL クエリに名前を付けます。
- カスタム SQL クエリを入力します。例：
  SELECT City, CompanyName FROM Customers
- 「Finish」をクリックします。
「Save & Visualize」をクリックします。

データセットを保存したら、ビジュアライゼーションを設定できます。可視化するカラムを選択し、ビジュアルタイプを選択します。ビジュアライゼーションは、名前からデータの集計方法までカスタマイズできます。

CData ODBC Driver for Hive と SQL Gateway を使用すると、Amazon QuickSight でHive のデータのデータビジュアライゼーションの構築や分析を簡単に行うことができます。オンプレミスのデータに AWS QuickSight からアクセスする方法など、ご質問がありましたらサポートチームまでお問い合わせください。

はじめる準備はできましたか？

Apache Hive ODBC Driver の無料トライアルをダウンロードしてお試しください：

ダウンロード

詳細：

Apache Hive ODBC Driver お問い合わせ

Hive ODBC Driver は、ODBC 接続をサポートする任意のアプリケーションからApache Hive データに直接接続できるパワフルなツールです。

ドライバーはSQL をHiveQL にマッピングして、標準SQL-92 で直接Apache Hive にアクセスできます。