Dataiku からリアルタイム OData データを使って AI/ML モデルを構築
Dataiku は、データの準備、分析、可視化、AI/ML モデルのデプロイメントに利用されるデータサイエンスおよび機械学習プラットフォームです。チームでの協業と効率的なデータドリブンな意思決定を可能にします。CData JDBC Driver for OData と組み合わせることで、Dataiku は OData services のデータ連携、データ準備、リアルタイム分析、そして信頼性の高いモデルデプロイメントをさらに強化します。
CData JDBC Driver は、最適化されたデータ処理機能を内蔵しており、リアルタイム OData services とのやり取りにおいて比類のないパフォーマンスを発揮します。複雑な SQL クエリを OData に発行すると、ドライバーはフィルタや集計などのサポートされている SQL 操作を OData に直接プッシュし、サポートされていない操作(多くの場合、SQL 関数や JOIN 操作)は内蔵の SQL エンジンを使用してクライアント側で処理します。動的メタデータクエリ機能が組み込まれているため、ネイティブのデータ型を使って OData services を操作・分析できます。
この記事では、Dataiku DSS(Data Science Studio)プラットフォームで CData JDBC Driver for OData を使って OData に簡単に連携する方法を紹介します。データの準備やカスタム AI/ML モデルの構築を行いましょう。
OData データ連携について
CData は、OData サービスのライブデータへのアクセスと統合を簡素化します。お客様は CData の接続機能を以下の目的で活用しています:
- OData バージョン 2.0、3.0、4.0 にアクセスでき、レガシーサービスと最新の機能・性能の両方に対応できます。
- $filter、$select、$expand などの高度なクエリオプションを活用し、サードパーティツールからのデータ取得を強化できます。
- サーバーサイドでの集計とグループ化の実行により、データ転送を最小化し、パフォーマンスを向上させます。
- Azure AD、ダイジェスト、ネゴシエート、NTLM、OAuth など、さまざまなスキームを使用して安全に認証でき、すべての接続でセキュアな認証を実現します。
- SQL ストアドプロシージャを使用して、OData サービスエンティティを管理できます。エンティティ間の関連付けの一覧表示、作成、削除などが可能です。
お客様は、Power BI、MicroStrategy、Tableau などのお気に入りのツールと OData サービスを定期的に統合し、OData サービスからデータベースやデータウェアハウスにデータをレプリケートするために CData のソリューションを使用しています。
はじめに
Dataiku DSS 環境の準備
このセクションでは、先に紹介した Dataiku を OData services 向けにセットアップする方法を説明します。事前に、お使いのオペレーティングシステムに対応した Dataiku DSS(オンプレミス版)をインストールしておいてください。
CData JDBC Driver for OData のインストール
まず、Dataiku と同じマシンに CData JDBC Driver for OData をインストールします。JDBC Driver は以下のパスにインストールされます:
C:\Program Files\CData[product_name] 20xx\lib\cdata.jdbc.odata.jar
Dataiku DSS での JDBC Driver 接続設定
Dataiku で CData JDBC Driver を使用するには、新しい SQL データベース接続を作成し、DSS の接続設定で JDBC Driver の JAR ファイルを追加する必要があります。
- Dataiku DSS プラットフォームにログインします。ブラウザでローカルに開きます(例:localhost:11200)。
- プラットフォームの右上にある Navigate to other sections of Dataiku メニューをクリックし、Administration を選択します。
- Connections タブを選択します。
- Connections 画面で New Connections ボタンをクリックします。
- スクロールして Other SQL databases を選択します。
OData に接続するための JDBC URL を生成します。jdbc:odata: で始まり、その後にセミコロン区切りの接続文字列プロパティを続けます。
OData への接続
OData に接続するには、Url を有効なOData サービスルートURI に設定する必要があります。 OData サービスにルートドキュメントがない場合、テーブルとして公開したい特定のエンティティをFeedURL に指定してください。
OData への認証
OData は、以下を経由する認証をサポートします。
- HTTP
- Kerberos
- SharePoint Online
- OAuth
- Azure AD
HTTP 認証スキーム
HTTP で認証する場合は、次の表に従ってAuthScheme を設定します。
Scheme AuthScheme その他の設定 None None 認証を必要としない場合に使用。 Basic Basic User、Password NTLM NTLM User、Password Digest(サポートされている場合) Digest User、Password その他の認証方法の詳細は、ヘルプドキュメントの「接続の確立」セクションを参照してください。
組み込みの接続文字列デザイナー
JDBC URL の作成には、OData JDBC Driver に組み込まれている接続文字列デザイナーを使用できます。JAR ファイルをダブルクリックするか、コマンドラインから実行してください。
java -jar cdata.jdbc.odata.jar
接続プロパティを入力し、接続文字列をクリップボードにコピーします。
一般的な JDBC URL は次のようになります:
jdbc:odata:URL=http://services.odata.org/V4/Northwind/Northwind.svc;UseIdUrl=True;OData Version=4.0;Data Format=ATOM;
- New SQL database (JDBC) connection 画面で、New connection name フィールドに名前を入力し、基本パラメータを指定します:
- JDBC Driver Class:cdata.jdbc.odata.ODataDriver
- JDBC URL:前のステップで取得した JDBC 接続 URL
- Driver jars directory:システム上で JAR ファイルがインストールされているフォルダパス
次に、SQL dialect を選択します。ここでは「SQL Server」を選択しています。Create をクリックします。接続が成功すると、「Connection OK」というメッセージが表示されます。
- Data Catalog ウィンドウが表示されます。Connection to browse、Restrict to catalog、Restrict to schema ドロップダウンから目的の接続、カタログ、スキーマを選択し、List Tables をクリックします。Dataiku プラットフォームに必要なテーブルがすべて一覧表示されます。
- 一覧からテーブルを選択し、Preview をクリックしてテーブルデータを表示します。Close をクリックしてウィンドウを閉じます。
新しいプロジェクトの作成
Dataiku DSS プラットフォームでデータフローの準備、ダッシュボードの作成、OData services の分析、AI/ML モデルの構築を行うには、まず新しいプロジェクトを作成する必要があります。
- Navigate to other sections of Dataiku メニューから Projects を選択します。
- Projects 画面で New Project をクリックし、+ Blank Project を選択します。
- New Project ウィンドウで、Name と Project Key を入力します。Create をクリックすると、新しいプロジェクトのダッシュボードが開きます。
- プロジェクト画面上部のメニューから Notebooks を選択します。
- + Create Your First Notebook ドロップダウンメニューをクリックし、Write your own オプションを選択します。
- New Notebook ウィンドウで SQL を選択します。
- Connection ドロップダウンから必要な接続を選択し、Notebook Name フィールドに名前を入力します。
接続のテスト
OData 接続をテストして OData services を分析するには、クエリコンパイラでクエリを記述し、Run をクリックします。クエリ結果やフィルタリングされた OData services の結果が画面に表示されます。
おわりに
CData JDBC Driver for OData の 30日間無償トライアル をダウンロードして、Dataiku と連携し、OData services からカスタム AI/ML モデルを簡単に構築しましょう。
ご質問があれば、お気軽に サポートチーム までお問い合わせください。