Databricks のデータをPowerShell でMySQL にレプリケーションする方法

古川えりか
古川えりか
コンテンツスペシャリスト
PowerShell のシンプルなスクリプトで、Databricks のデータ をMySQL データベースにレプリケーション(複製)する方法を紹介します。

CData Cmdlets for Databricks を使えば、PowerShell からDatabricks のデータ データにリアルタイムで連携できます。データ同期などのタスクの連携にぴったりの製品です。 本記事では、PowerShell からCData Cmdlets for Databricks およびCData Cmdlets for MySQL を使って、同期スクリプトを作成して実行します。

まずは、PowerShell でDatabricks への接続を行います。レプリケーションは4つのステップがあります。

Databricks 接続プロパティの取得・設定方法

Databricks クラスターに接続するには、以下のプロパティを設定します。

  • Database:Databricks データベース名。
  • Server:Databricks クラスターのサーバーのホスト名
  • HTTPPath:Databricks クラスターのHTTP パス。
  • Token:個人用アクセストークン。この値は、Databricks インスタンスのユーザー設定ページに移動してアクセストークンタブを選択することで取得できます。
Databricks インスタンスで必要な値は、クラスターに移動して目的のクラスターを選択し、Advanced Options の下にあるJDBC/ODBC タブを選択することで見つけることができます。

Databricks への認証

CData は、次の認証スキームをサポートしています。

  • 個人用アクセストークン
  • Microsoft Entra ID(Azure AD)
  • Azure サービスプリンシパル
  • OAuthU2M
  • OAuthM2M

個人用アクセストークン

認証するには、次を設定します。

  • AuthSchemePersonalAccessToken
  • Token:Databricks サーバーへの接続に使用するトークン。Databricks インスタンスのユーザー設定ページに移動してアクセストークンタブを選択することで取得できます。

その他の認証方法については、ヘルプドキュメント の「はじめに」セクションを参照してください。

Databricks のデータの取得

  1. モジュールのインストール:

    Install-Module DatabricksCmdlets
  2. Databricks への接続:

      $databricks = Connect-Databricks  -Server $Server -HTTPPath $HTTPPath -User $User -Token $Token
      
  3. 取得ターゲットのリソースの取得:

      $data = Select-Databricks -Connection $databricks -Table "Customers"
      

    Invoke-Databricks cmdlet を使って、SQL-92 クエリを使用することもできます:

      $data = Invoke-Databricks -Connection $databricks -Query 'SELECT * FROM Customers WHERE Country = @Country' -Params @{'@Country'='US'}
      
  4. 戻り値からカラム名のリストを保存します。

      $columns = ($data | Get-Member -MemberType NoteProperty | Select-Object -Property Name).Name
      

Databricks のデータをMySQL データベースにレプリケーション

カラム名を指定できるようにして、データをMySQL データベースにレプリケーションします。

  1. モジュールのインストール:

    Install-Module MySQLCmdlets
  2. MySQL DB に、MySQL Server 名、ユーザー、パスワード、レプリケーション先のデータベース名を指定して、接続します:

      $mysql = Connect-MySQL -User $User -Password $Password -Database $Database -Server $Server -Port $Port
      
  3. Databricks、保存された値、そしてAdd-MySQL Cmdlet を使って、MySQL にデータを1レコードずつ挿入します。この例では、MySQL 側のテーブルは、Databricks のリソース(Customers)と同じテーブル名を持っている必要があります。

      $data | % {
        $row = $_
        $values = @()
        $columns | % {
          $col = $_
          $values += $row.$($col)
        }
        Add-MySQL -Connection $mysql -Table "Customers" -Columns $columns -Values $values
      }
      

次回以降のレプリケーションをシンプルに実現

  • 一度PowerShell でDatabricks とMySQL に接続したら、次からは1行のコマンドでレプリケーションを実施できます:

      Select-Databricks -Connection $databricks -Table "Customers" | % {
        $row = $_
        $values = @()
        $columns | % {
          $col = $_
          $values += $row.$($col)
        }
        Add-MySQL -Connection $mysql -Table "Customers" -Columns $columns -Values $values
      }
      
  • 別のPowerShell モジュールで、Databricks を別のデータベースに複製する場合、Select-Databricks cmdlet のデータから、カラム、接続およびテーブルを除外しておきましょう。これらのデータはデータ移動のときだけ必要となるためです。

      $columns = ($data | Get-Member -MemberType NoteProperty | Select-Object -Property Name).Name | ? {$_ -NotIn @('Columns','Connection','Table')}
      

おわりに

これで、Databricks のデータをMySQL に複製できました。分析、BI などでDatabricks のデータをMySQL から使うことができるようになります。

はじめる準備はできましたか?

Databricks Cmdlets の無料トライアルをダウンロードしてお試しください:

 ダウンロード

詳細:

Databricks Icon Databricks Data Cmdlets お問い合わせ

Databricks にリアルタイムアクセスできる簡単に使えるPowerShell Cmdlets セット。Cmdlets を使って、SQL サーバーと同じようにデータを簡単に読み出し、書き込みができます。