ColdFusion で JDBC 経由でリアルタイム Spark のデータをインポートしてアプリケーションを構築

Dibyendu Datta
Lead Technology Evangelist

CData JDBC Driver を使用して、ColdFusion で Spark のデータをインポートして活用する方法を説明します。

Adobe ColdFusion は、Web およびモバイルアプリケーションの開発プラットフォームです。独自のスクリプト言語である ColdFusion Markup Language（CFML）を使用して、データ駆動型のWeb サイトを構築したり、REST などのリモートサービスを生成したりできます。

ColdFusion と CData JDBC Driver for Apache Sparkを組み合わせると、ColdFusion の Web およびモバイルアプリケーションを Spark の運用データに接続できます。これにより、アプリケーションをより堅牢で完成度の高いものにできます。この記事では、 JDBC Driver を使用して、ColdFusion マークアップファイル内で Spark データを含むテーブルを作成する方法を説明します。

CData JDBC Driver は、最適化されたデータ処理機能を組み込んでおり、Spark のデータとのリアルタイム連携において圧倒的なパフォーマンスを提供します。複雑な SQL クエリを Spark に発行すると、ドライバーはフィルタや集計などのサポートされている SQL 操作を Spark に直接プッシュし、サポートされていない操作（多くの場合 SQL 関数や JOIN 操作）は組み込みの SQL エンジンがクライアント側で処理します。組み込みの動的メタデータクエリ機能により、ネイティブのデータ型を使用して Spark のデータを操作・分析できます。

Spark への接続を設定

ColdFusion と Spark 間の接続を確立するには、JDBC 接続文字列が必要です。

SparkSQL への接続

SparkSQL への接続を確立するには以下を指定します。

Server：SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
Port：SparkSQL インスタンスへの接続用のポートに設定。
TransportMode：SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
AuthScheme：使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

Databricks への接続

Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note：必要な値は、「クラスター」に移動して目的のクラスターを選択し、「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。

Server：Databricks クラスターのサーバーのホスト名に設定。
Port：443
TransportMode：HTTP
HTTPPath：Databricks クラスターのHTTP パスに設定。
UseSSL：True
AuthScheme：PLAIN
User：'token' に設定。
Password：パーソナルアクセストークンに設定（値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます）。

組み込みの接続文字列デザイナー

JDBC URL の構築をサポートするために、Spark JDBC Driver に組み込まれている接続文字列デザイナーを使用できます。JAR ファイルをダブルクリックするか、コマンドラインから JAR ファイルを実行してください。

java -jar cdata.jdbc.sparksql.jar

組み込みの接続文字列デザイナーを使用して JDBC URL を生成（spark の例）

データソースの追加とテーブルの作成

接続を設定したら、次の手順に従って CData JDBC Driver を ColdFusion の lib ディレクトリに追加し、新しいデータソースを追加し、接続をテストし、 ColdFusion マークアップファイルを作成して、最終的に Spark のデータとリアルタイムに接続し、ColdFusion Markup Language（CFML）で記述されたテーブルに表示します。

Spark 用の JDBC Driver と lic ファイルを「C:\Program Files\CData[product_name]\lib」から「C:\ColdFusion2021\cfusion\wwwroot\WEB-INF\lib」にコピーします。
```
            cdata.jdbc.sparksql.jar
            cdata.jdbc.sparksql.lic
        
```
注意：.lic ファイルを jar と一緒にコピーしないと、有効なライセンスがインストールされていないことを示すライセンスエラーが表示されます。これはトライアル版と製品版の両方に当てはまります。
ColdFusion 管理画面から、Data & Services を選択します。
ここで「Add New Data Source」をクリックします。データソース名は、ColdFusion の変数命名規則に従っていれば任意の名前を指定できます。 JDBC Driver の場合は「other」を選択し、「Add」ボタンをクリックします。
次に、ドライバーのプロパティを入力します。
- JDBC URL は次の形式で指定します： jdbc:sparksql:|connectionString|
- 一般的な接続文字列は次のようになります：
  
  jdbc:sparksql:Server=127.0.0.1;
- Driver Class：cdata.jdbc.sparksql.SparkSQLDriver
- Driver Name は任意で、ColdFusion 管理コンソールでデータソースを識別するためだけに使用されます。
作成した CDataSparkJDBC データソースの左側にあるチェックマークをクリックして、接続をテストします。データソースが「OK」ステータスを報告すれば、使用可能な状態です。

次に、新しい ColdFusion マークアップファイル（.cfm）を作成し、ColdFusion の wwwroot ディレクトリ（「C:\ColdFusion2021\cfusion\wwwroot」）に配置します。

以下のコードでデータソースにクエリを実行します：

            
        <cfquery name="SparkQuery" dataSource="CDataSparkJDBC">
          SELECT * FROM Customers
        </cfquery>

CFTable を使用すると、HTML でテーブルを素早く出力できます：

            
          <cftable
          query = "SparkQuery"
          border = "1"
          colHeaders
          colSpacing = "2"
          headerLines = "2"
          HTMLTable
          maxRows = "500"
          startRow = "1">

          <cfcol header="<b>City</b>" align="Left" width=2 text="City"/>

          <cfcol header="<b>Balance</b>" align="Left" width=15 text="Balance"/>

          ...

        </cftable>

HTML 部分を含む完全なコードは以下のとおりです：

            
        <html>
        <head><title>CData Software | Spark Customers Table Demo </title></head>
        <body>
        <cfoutput>#ucase("Spark Customers Table Demo")#</cfoutput>
        <cfquery name="SparkQuery" dataSource="CDataSparkJDBC">

          SELECT * FROM Customers

        </cfquery>
        <cftable
          query = "SparkQuery"
          border = "1"
          colHeaders
          colSpacing = "2"
          headerLines = "2"
          HTMLTable
          maxRows = "500"
          startRow = "1">
          <cfcol header="<b>City</b>" align="Left" width=2 text="City"/>

          <cfcol header="<b>Balance</b>" align="Left" width=15 text="Balance"/>

          ...

        </cftable>
        </body>

        </html>