Jaspersoft Studio から Spark のデータに接続
この記事では、CData JDBC Driver for Spark を使って、Jaspersoft Studio からSpark に標準JDBC データソースとして接続する方法を説明します。標準のJaspersoft ウィザードを使ってSpark へのSQL クエリを作成していきます。クエリは直接Spark API に実行されるため、Spark のデータへのリアルタイム接続が可能になります。
Spark のデータにJDBC データソースとして接続
Jaspersoft Studio でJDBC データソースを作成するには、データアダプタを作成します。
- Repository Explorer ビューで、Data Adapters ノードを右クリックし、Create Data Adapter をクリックします。
- Database JDBC Connection を選択します。
- ドライバーのわかりやすい名前を入力します。
- Driver Classpath タブで、Add をクリックします。表示されたダイアログで、インストールディレクトリのlib サブフォルダに移動し、ドライバーJAR を選択します。
- Database Location タブで、JDBC ドライバーのクラス名を入力します:cdata.jdbc.sparksql.SparkSQLDriver
- JDBC URL を入力します。
SparkSQL への接続
SparkSQL への接続を確立するには以下を指定します。
- Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
- Port:SparkSQL インスタンスへの接続用のポートに設定。
- TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
- AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。
Databricks への接続
Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:必要な値は、「クラスター」に移動して目的のクラスターを選択し、 「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。
- Server:Databricks クラスターのサーバーのホスト名に設定。
- Port:443
- TransportMode:HTTP
- HTTPPath:Databricks クラスターのHTTP パスに設定。
- UseSSL:True
- AuthScheme:PLAIN
- User:'token' に設定。
- Password:パーソナルアクセストークンに設定(値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます)。
組み込みの接続文字列デザイナー
JDBC URL の構成をサポートするために、Spark JDBC Driver に組み込まれている接続文字列デザイナーを使用してください。JAR ファイルをダブルクリックするか、コマンドラインからjar ファイルを実行します。
java -jar cdata.jdbc.sparksql.jar
接続プロパティに値を入力して、接続文字列をクリップボードにコピーします。
JDBC URL を構成する際に、Max Rows 接続プロパティも設定できます。これにより返される行数が制限され、レポートやビジュアライゼーションの設計時のパフォーマンス向上に役立ちます。
以下はSpark の一般的なJDBC URL です:
jdbc:sparksql:Server=127.0.0.1;
Spark のデータでレポートを作成
以下のステップに従って、Spark へのSQL クエリを作成します。これはシンプルなレポートの基礎となります。
- File -> New Jasper Report をクリックします。テンプレートを選択し、親プロジェクトを選択して、レポートファイルを指定します。
- Data Adapter メニューで、前のセクションで作成したデータアダプタを選択します。
- Diagram タブで、テーブルをボックスにドラッグして、使用したいカラムをクリックします。または、Texts タブでカスタムクエリを入力します。例:
SELECT City, Balance FROM Customers
- データセットに含めるフィールドを選択します。この例では、すべてのフィールドを使用します。
- Group By ステップをスキップして、ウィザードを完了します。
Preview タブで、現在のSpark のデータでレポートがどのように表示されるかをプレビューできます。
チャートを作成
以下のセクションでは、独自のSQL クエリに紐づいたチャートを作成する方法を説明します。リモートデータソースからデータを取得する際、特定のレポートオブジェクト用に作成したより制限的なクエリを使用すると、パフォーマンスが向上する場合があります。
DataSet を作成
以下のステップに従って、チャートを入力する新しいデータセットを作成します。
- レポートの編集エリアで、Design タブをクリックします。
- Outline ビューで、レポートのルートノードを右クリックし、Create Dataset をクリックします。
- データセットの名前を入力し、接続またはデータソースから新しいデータセットを作成するオプションをクリックします。
- Data Adapter メニューで、最初のセクションで作成したデータアダプタを選択します。
- 次のようなクエリを入力します:
SELECT City, Balance FROM Customers
- データセットに含めるフィールドを選択します。この例ではCity とBalance を使用します。
- フィールドによるグループ化のステップをスキップして、ウィザードを完了します。
チャートを構成
データセットを追加した後、以下のステップに従ってチャートウィザードでカラム値をチャートの軸にマッピングします。
- Outline ビューでSummary ノードをクリックします。Properties ビューで、高さを400ピクセルに設定します。Summary バンドはレポートの最後に印刷されます。
- パレットからチャートをSummary にドラッグします。チャートウィザードが表示されます。
- チャートのタイプを選択します。この例では棒グラフを使用します。
- Dataset メニューで、チャート用に作成したデータセットを選択します。
- Dataset タブで、マスターレポートの入力に使用されたものと同じJDBC 接続を使用するオプションを選択します。
- チャートのシリーズを指定します:Series メニューの横にあるボタンをクリックし、Add をクリックします。表示されたExpression Editor で、City カラムをダブルクリックして、式を$F{City} に設定します。
y 軸の値を指定します:チャートウィザードで、Value ボックスの横にあるボタンをクリックします。Expression Editor で、Balance をダブルクリックして、式を$F{Balance} に設定します。
- シリーズ要素のラベルを指定します:チャートウィザードで、Label ボックスの横にあるボタンをクリックします。Expression Editor で、City カラムをダブルクリックして、式を$F{City} に設定します。必要に応じて、以下の式のようにカラムの型を文字列に変換します:
$F{City}.toString()
- チャートを拡大してSummary セクションを埋めます:チャートを右クリックして、Size to Container -> Fit Both をクリックします。
レポートの実行
他のJDBC データソースと同様に、Spark のデータでレポートを生成できるようになりました。Jaspersoft Studio はレポートの実行ごとにデータを定期的に更新します。