Java で Databricks のデータ エンティティのオブジェクト リレーショナル マッピング(ORM)を行う

Jerod Johnson
Jerod Johnson
Senior Technology Evangelist
オブジェクト リレーショナル マッピング(ORM)技術を使用すると、リレーショナルデータソースの操作が容易になり、論理的なビジネスモデルと物理ストレージモデルを橋渡しできます。本記事では、Java ベースの ORM フレームワーク Hibernate に Databricks のデータ への接続を組み込む方法を説明します。

Hibernate を使用して、オブジェクト指向のドメインモデルを従来のリレーショナルデータベースにマッピングできます。以下のチュートリアルでは、CData JDBC Driver for Databricks を使用して Hibernate で Databricks リポジトリの ORM を生成する方法を説明します。

本記事では IDE として Eclipse を使用していますが、CData JDBC Driver for Databricks は Java ランタイム環境をサポートするあらゆる製品で使用できます。Knowledge Base には、IntelliJ IDEA や NetBeans から Databricks のデータ に接続するためのチュートリアルも用意しています。

Databricks データ連携について

CData を使用すれば、Databricks のライブデータへのアクセスと統合がこれまでになく簡単になります。お客様は CData の接続機能を以下の目的で利用しています:

  • Runtime バージョン 9.1 - 13.X から Pro および Classic Databricks SQL バージョンまで、すべてのバージョンの Databricks にアクセスできます。
  • あらゆるホスティングソリューションとの互換性により、お好みの環境で Databricks を使用し続けることができます。
  • パーソナルアクセストークン、Azure サービスプリンシパル、Azure AD など、さまざまな方法で安全に認証できます。
  • Databricks ファイルシステム、Azure Blob ストレージ、AWS S3 ストレージを使用して Databricks にデータをアップロードできます。

多くのお客様が、さまざまなシステムから Databricks データレイクハウスにデータを移行するために CData のソリューションを使用していますが、ライブ接続ソリューションを使用して、データベースと Databricks 間の接続をフェデレートしているお客様も多数います。これらのお客様は、SQL Server リンクサーバーまたは Polybase を使用して、既存の RDBMS 内から Databricks へのライブアクセスを実現しています。

一般的な Databricks のユースケースと CData のソリューションがデータの問題解決にどのように役立つかについては、ブログをご覧ください:What is Databricks Used For? 6 Use Cases


はじめに


Hibernate のインストール

以下の手順に従って、Eclipse に Hibernate プラグインをインストールします。

  1. Eclipse で、Help -> Install New Software を選択します。
  2. Work With ボックスに「http://download.jboss.org/jbosstools/neon/stable/updates/」を入力します。
  3. フィルタボックスに「Hibernate」と入力します。
  4. Hibernate Tools を選択します。

新規プロジェクトの作成

以下の手順に従って、新しいプロジェクトにドライバー JAR を追加します。

  1. 新規プロジェクトを作成します。プロジェクトタイプとして Java Project を選択し、Next をクリックします。プロジェクト名を入力して Finish をクリックします。
  2. プロジェクトを右クリックして Properties をクリックします。Java Build Path をクリックし、Libraries タブを開きます。
  3. Add External JARs をクリックして、インストールディレクトリの lib サブフォルダにある cdata.jdbc.databricks.jar ライブラリを追加します。

Hibernate 設定ファイルの追加

以下の手順に従って、Databricks のデータ への接続プロパティを設定します。

  1. 新規プロジェクトを右クリックし、New -> Hibernate -> Hibernate Configuration File (cfg.xml) を選択します。
  2. src を親フォルダとして選択し、Next をクリックします。
  3. 以下の値を入力します:

    • Hibernate version:: 5.2
    • Database dialect: Derby
    • Driver class: cdata.jdbc.databricks.DatabricksDriver
    • Connection URL: JDBC URL です。jdbc:databricks: から始まり、セミコロン区切りの接続プロパティが続きます。

      Databricks 接続プロパティの取得・設定方法

      Databricks クラスターに接続するには、以下のプロパティを設定します。

      • Database:Databricks データベース名。
      • Server:Databricks クラスターのサーバーのホスト名
      • HTTPPath:Databricks クラスターのHTTP パス。
      • Token:個人用アクセストークン。この値は、Databricks インスタンスのユーザー設定ページに移動してアクセストークンタブを選択することで取得できます。
      Databricks インスタンスで必要な値は、クラスターに移動して目的のクラスターを選択し、Advanced Options の下にあるJDBC/ODBC タブを選択することで見つけることができます。

      Databricks への認証

      CData は、次の認証スキームをサポートしています。

      • 個人用アクセストークン
      • Microsoft Entra ID(Azure AD)
      • Azure サービスプリンシパル
      • OAuthU2M
      • OAuthM2M

      個人用アクセストークン

      認証するには、次を設定します。

      • AuthSchemePersonalAccessToken
      • Token:Databricks サーバーへの接続に使用するトークン。Databricks インスタンスのユーザー設定ページに移動してアクセストークンタブを選択することで取得できます。

      その他の認証方法については、ヘルプドキュメント の「はじめに」セクションを参照してください。

      組み込みの接続文字列デザイナー

      JDBC URL の構築には、Databricks JDBC Driver に組み込まれている接続文字列デザイナーを使用できます。JAR ファイルをダブルクリックするか、コマンドラインから jar ファイルを実行してください。

      java -jar cdata.jdbc.databricks.jar
      

      接続プロパティを入力し、接続文字列をクリップボードにコピーします。

      一般的な JDBC URL は以下のとおりです:

      jdbc:databricks:Server=127.0.0.1;HTTPPath=MyHTTPPath;User=MyUser;Token=MyToken;

Hibernate から Databricks のデータ に接続

以下の手順に従って、前のステップで作成した設定を選択します。

  1. Hibernate Configurations パースペクティブに切り替えます: Window -> Open Perspective -> Hibernate。
  2. Hibernate Configurations パネルを右クリックし、Add Configuration をクリックします。
  3. Hibernate version を 5.2 に設定します。
  4. Browse ボタンをクリックし、プロジェクトを選択します。
  5. Configuration file フィールドで、Setup -> Use Existing をクリックし、hibernate.cfg.xml ファイルの場所(このデモでは src フォルダ内)を選択します。
  6. Classpath タブで、User Entries の下に何もない場合は、Add External JARS をクリックしてドライバー jar を再度追加します。設定が完了したら OK をクリックします。
  7. 新しく作成した Hibernate 設定ファイルの Database ノードを展開します。

Databricks のデータ のリバースエンジニアリング

以下の手順に従って、reveng.xml 設定ファイルを生成します。オブジェクトとしてアクセスするテーブルを指定します。

  1. Package Explorer に戻ります。
  2. プロジェクトを右クリックし、New -> Hibernate -> Hibernate Reverse Engineering File (reveng.xml) を選択します。Next をクリックします。
  3. src を親フォルダとして選択し、Next をクリックします。
  4. Console configuration ドロップダウンメニューで、上記で作成した Hibernate 設定ファイルを選択し、Refresh をクリックします。
  5. ノードを展開し、リバースエンジニアリングするテーブルを選択します。完了したら Finish をクリックします。

Hibernate の実行設定

以下の手順に従って、Databricks テーブルの POJO(Plain Old Java Object)を生成します。

  1. メニューバーから、Run -> Hibernate Code Generation -> Hibernate Code Generation Configurations をクリックします。
  2. Console configuration ドロップダウンメニューで、前のセクションで作成した Hibernate 設定ファイルを選択します。Output directory の横にある Browse をクリックし、src を選択します。
  3. Reverse Engineer from JDBC Connection チェックボックスを有効にします。Setup ボタンをクリックし、Use Existing をクリックして、hibernate.reveng.xml ファイルの場所(このデモでは src フォルダ内)を選択します。
  4. Exporters タブで、Domain code (.java) と Hibernate XML Mappings (hbm.xml) をチェックします。
  5. Run をクリックします。

前のステップのリバースエンジニアリング設定に基づいて、1 つ以上の POJO が作成されます。

マッピングタグの挿入

生成した各マッピングに対して、hibernate.cfg.xml にマッピングタグを作成し、Hibernate がマッピングリソースを参照できるようにする必要があります。hibernate.cfg.xml を開き、以下のようにマッピングタグを挿入します:





  
    
      cdata.databricks.DatabricksDriver
    
    
      jdbc:databricks:Server=127.0.0.1;HTTPPath=MyHTTPPath;User=MyUser;Token=MyToken;
    
    
      org.hibernate.dialect.SQLServerDialect
    
    
    
    

SQL の実行

前のステップで作成したエンティティを使用して、Databricks のデータ のデータの検索と変更が可能になります:


import java.util.*;
import org.hibernate.Session;
import org.hibernate.cfg.Configuration;
import org.hibernate.query.Query;

public class App {
  public static void main(final String[] args) {
    Session session =  new
    Configuration().configure().buildSessionFactory().openSession();
    String SELECT = "FROM Customers C WHERE Country = :Country";
    Query q = session.createQuery(SELECT, Customers.class);
    q.setParameter("Country","US");
    List<Customers> resultList = (List<Customers>) q.list();

    for(Customers s: resultList){
      System.out.println(s.getCity());
      System.out.println(s.getCompanyName());
    }
  }
}

はじめる準備はできましたか?

Databricks Driver の無料トライアルをダウンロードしてお試しください:

 ダウンロード

詳細:

Databricks Icon Databricks JDBC Driver お問い合わせ

Databricks 連携のパワフルなJava アプリケーションを素早く作成して配布。