Java で Databricks のデータ エンティティのオブジェクト リレーショナル マッピング(ORM)を行う
Hibernate を使用して、オブジェクト指向のドメインモデルを従来のリレーショナルデータベースにマッピングできます。以下のチュートリアルでは、CData JDBC Driver for Databricks を使用して Hibernate で Databricks リポジトリの ORM を生成する方法を説明します。
本記事では IDE として Eclipse を使用していますが、CData JDBC Driver for Databricks は Java ランタイム環境をサポートするあらゆる製品で使用できます。Knowledge Base には、IntelliJ IDEA や NetBeans から Databricks のデータ に接続するためのチュートリアルも用意しています。
Databricks データ連携について
CData を使用すれば、Databricks のライブデータへのアクセスと統合がこれまでになく簡単になります。お客様は CData の接続機能を以下の目的で利用しています:
- Runtime バージョン 9.1 - 13.X から Pro および Classic Databricks SQL バージョンまで、すべてのバージョンの Databricks にアクセスできます。
- あらゆるホスティングソリューションとの互換性により、お好みの環境で Databricks を使用し続けることができます。
- パーソナルアクセストークン、Azure サービスプリンシパル、Azure AD など、さまざまな方法で安全に認証できます。
- Databricks ファイルシステム、Azure Blob ストレージ、AWS S3 ストレージを使用して Databricks にデータをアップロードできます。
多くのお客様が、さまざまなシステムから Databricks データレイクハウスにデータを移行するために CData のソリューションを使用していますが、ライブ接続ソリューションを使用して、データベースと Databricks 間の接続をフェデレートしているお客様も多数います。これらのお客様は、SQL Server リンクサーバーまたは Polybase を使用して、既存の RDBMS 内から Databricks へのライブアクセスを実現しています。
一般的な Databricks のユースケースと CData のソリューションがデータの問題解決にどのように役立つかについては、ブログをご覧ください:What is Databricks Used For? 6 Use Cases
はじめに
Hibernate のインストール
以下の手順に従って、Eclipse に Hibernate プラグインをインストールします。
- Eclipse で、Help -> Install New Software を選択します。
- Work With ボックスに「http://download.jboss.org/jbosstools/neon/stable/updates/」を入力します。
- フィルタボックスに「Hibernate」と入力します。
- Hibernate Tools を選択します。
新規プロジェクトの作成
以下の手順に従って、新しいプロジェクトにドライバー JAR を追加します。
- 新規プロジェクトを作成します。プロジェクトタイプとして Java Project を選択し、Next をクリックします。プロジェクト名を入力して Finish をクリックします。
- プロジェクトを右クリックして Properties をクリックします。Java Build Path をクリックし、Libraries タブを開きます。
- Add External JARs をクリックして、インストールディレクトリの lib サブフォルダにある cdata.jdbc.databricks.jar ライブラリを追加します。
Hibernate 設定ファイルの追加
以下の手順に従って、Databricks のデータ への接続プロパティを設定します。
- 新規プロジェクトを右クリックし、New -> Hibernate -> Hibernate Configuration File (cfg.xml) を選択します。
- src を親フォルダとして選択し、Next をクリックします。
以下の値を入力します:
- Hibernate version:: 5.2
- Database dialect: Derby
- Driver class: cdata.jdbc.databricks.DatabricksDriver
Connection URL: JDBC URL です。jdbc:databricks: から始まり、セミコロン区切りの接続プロパティが続きます。
Databricks 接続プロパティの取得・設定方法
Databricks クラスターに接続するには、以下のプロパティを設定します。
- Database:Databricks データベース名。
- Server:Databricks クラスターのサーバーのホスト名。
- HTTPPath:Databricks クラスターのHTTP パス。
- Token:個人用アクセストークン。この値は、Databricks インスタンスのユーザー設定ページに移動してアクセストークンタブを選択することで取得できます。
Databricks への認証
CData は、次の認証スキームをサポートしています。
- 個人用アクセストークン
- Microsoft Entra ID(Azure AD)
- Azure サービスプリンシパル
- OAuthU2M
- OAuthM2M
個人用アクセストークン
認証するには、次を設定します。
- AuthScheme:PersonalAccessToken。
- Token:Databricks サーバーへの接続に使用するトークン。Databricks インスタンスのユーザー設定ページに移動してアクセストークンタブを選択することで取得できます。
その他の認証方法については、ヘルプドキュメント の「はじめに」セクションを参照してください。
組み込みの接続文字列デザイナー
JDBC URL の構築には、Databricks JDBC Driver に組み込まれている接続文字列デザイナーを使用できます。JAR ファイルをダブルクリックするか、コマンドラインから jar ファイルを実行してください。
java -jar cdata.jdbc.databricks.jar
接続プロパティを入力し、接続文字列をクリップボードにコピーします。
一般的な JDBC URL は以下のとおりです:
jdbc:databricks:Server=127.0.0.1;HTTPPath=MyHTTPPath;User=MyUser;Token=MyToken;
Hibernate から Databricks のデータ に接続
以下の手順に従って、前のステップで作成した設定を選択します。
- Hibernate Configurations パースペクティブに切り替えます: Window -> Open Perspective -> Hibernate。
- Hibernate Configurations パネルを右クリックし、Add Configuration をクリックします。
- Hibernate version を 5.2 に設定します。
- Browse ボタンをクリックし、プロジェクトを選択します。
- Configuration file フィールドで、Setup -> Use Existing をクリックし、hibernate.cfg.xml ファイルの場所(このデモでは src フォルダ内)を選択します。
- Classpath タブで、User Entries の下に何もない場合は、Add External JARS をクリックしてドライバー jar を再度追加します。設定が完了したら OK をクリックします。
- 新しく作成した Hibernate 設定ファイルの Database ノードを展開します。
Databricks のデータ のリバースエンジニアリング
以下の手順に従って、reveng.xml 設定ファイルを生成します。オブジェクトとしてアクセスするテーブルを指定します。
- Package Explorer に戻ります。
- プロジェクトを右クリックし、New -> Hibernate -> Hibernate Reverse Engineering File (reveng.xml) を選択します。Next をクリックします。
- src を親フォルダとして選択し、Next をクリックします。
- Console configuration ドロップダウンメニューで、上記で作成した Hibernate 設定ファイルを選択し、Refresh をクリックします。
- ノードを展開し、リバースエンジニアリングするテーブルを選択します。完了したら Finish をクリックします。
Hibernate の実行設定
以下の手順に従って、Databricks テーブルの POJO(Plain Old Java Object)を生成します。
- メニューバーから、Run -> Hibernate Code Generation -> Hibernate Code Generation Configurations をクリックします。
- Console configuration ドロップダウンメニューで、前のセクションで作成した Hibernate 設定ファイルを選択します。Output directory の横にある Browse をクリックし、src を選択します。
- Reverse Engineer from JDBC Connection チェックボックスを有効にします。Setup ボタンをクリックし、Use Existing をクリックして、hibernate.reveng.xml ファイルの場所(このデモでは src フォルダ内)を選択します。
- Exporters タブで、Domain code (.java) と Hibernate XML Mappings (hbm.xml) をチェックします。
- Run をクリックします。
前のステップのリバースエンジニアリング設定に基づいて、1 つ以上の POJO が作成されます。
マッピングタグの挿入
生成した各マッピングに対して、hibernate.cfg.xml にマッピングタグを作成し、Hibernate がマッピングリソースを参照できるようにする必要があります。hibernate.cfg.xml を開き、以下のようにマッピングタグを挿入します:
cdata.databricks.DatabricksDriver
jdbc:databricks:Server=127.0.0.1;HTTPPath=MyHTTPPath;User=MyUser;Token=MyToken;
org.hibernate.dialect.SQLServerDialect
SQL の実行
前のステップで作成したエンティティを使用して、Databricks のデータ のデータの検索と変更が可能になります:
import java.util.*;
import org.hibernate.Session;
import org.hibernate.cfg.Configuration;
import org.hibernate.query.Query;
public class App {
public static void main(final String[] args) {
Session session = new
Configuration().configure().buildSessionFactory().openSession();
String SELECT = "FROM Customers C WHERE Country = :Country";
Query q = session.createQuery(SELECT, Customers.class);
q.setParameter("Country","US");
List<Customers> resultList = (List<Customers>) q.list();
for(Customers s: resultList){
System.out.println(s.getCity());
System.out.println(s.getCompanyName());
}
}
}