Databricks(AWS)でPaylocity のデータを処理・分析
Databricks は、Apache Spark を通じたデータ処理機能を提供するクラウドベースのサービスです。CData JDBC Driver と組み合わせることで、Databricks を使用してリアルタイムPaylocity のデータに対してデータエンジニアリングとデータサイエンスを実行できます。この記事では、AWS でCData JDBC Driver をホストし、Databricks でリアルタイムPaylocity のデータに接続して処理する方法を説明します。
最適化されたデータ処理が組み込まれたCData JDBC Driver は、リアルタイムPaylocity のデータを扱う上で比類のないパフォーマンスを提供します。Paylocity に複雑なSQL クエリを発行すると、ドライバーはフィルタや集計などのサポートされているSQL 操作をPaylocity に直接プッシュし、サポートされていない操作(主にSQL 関数やJOIN 操作)は組み込みSQL エンジンを利用してクライアント側で処理します。組み込みの動的メタデータクエリを使用すると、ネイティブデータ型を使ってPaylocity のデータを操作・分析できます。
CData JDBC Driver をDatabricks にインストール
Databricks でリアルタイムPaylocity のデータを操作するには、Databricks クラスターにドライバーをインストールします。
- Databricks の管理画面に移動し、対象のクラスターを選択します。
- Libraries タブで「Install New」をクリックします。
- Library Source として「Upload」を選択し、Library Type として「Jar」を選択します。
- インストール場所(通常はC:\Program Files\CData[product_name]\lib)からJDBC JAR ファイル(cdata.jdbc.paylocity.jar)をアップロードします。
ノートブックでPaylocity のデータにアクセス:Python
JAR ファイルをインストールしたら、Databricks でリアルタイムPaylocity のデータを操作する準備が整いました。ワークスペースに新しいノートブックを作成します。ノートブックに名前を付け、言語としてPython を選択し(Scala も利用可能)、JDBC ドライバーをインストールしたクラスターを選択します。ノートブックが起動したら、接続を設定し、Paylocity をクエリして、基本的なレポートを作成できます。
Paylocity への接続を設定
JDBC Driver クラスを参照し、JDBC URL で使用する接続文字列を構築してPaylocity に接続します。また、JDBC URL でRTK プロパティを設定する必要があります(Beta ドライバーを使用している場合を除く)。このプロパティの設定方法については、インストールに含まれるライセンスファイルを参照してください。
ステップ1:接続情報
driver = "cdata.jdbc.paylocity.PaylocityDriver" url = "jdbc:paylocity:RTK=5246...;OAuthClientID=YourClientId;OAuthClientSecret=YourClientSecret;RSAPublicKey=YourRSAPubKey;Key=YourKey;IV=YourIV;"
組み込みの接続文字列デザイナー
JDBC URL の作成をサポートするために、Paylocity JDBC Driver に組み込まれている接続文字列デザイナーが使用できます。JAR ファイルをダブルクリックするか、コマンドラインからJAR ファイルを実行します。
java -jar cdata.jdbc.paylocity.jar
接続プロパティを入力し、接続文字列をクリップボードにコピーします。
Paylocity への接続を確立するには以下を設定します。
- RSAPublicKey:Paylocity アカウントでRSA 暗号化が有効になっている場合は、Paylocity に関連付けられたRSA キーを設定。
このプロパティは、Insert およびUpdate ステートメントを実行するために必須です。この機能が無効になっている場合は必須ではありません。
- UseSandbox:サンドボックスアカウントを使用する場合はTrue に設定。
- CustomFieldsCategory:Customfields カテゴリに設定。これは、IncludeCustomFields がtrue に設定されている場合は必須です。デフォルト値はPayrollAndHR です。
- Key:Paylocity の公開鍵で暗号化されたAES 共通鍵(base 64 エンコード)。これはコンテンツを暗号化するためのキーです。
Paylocity は、RSA 復号化を使用してAES 鍵を復号化します。
これはオプションのプロパティで、IV の値が指定されていない場合、ドライバーは内部でキーを生成します。 - IV:コンテンツを暗号化するときに使用するAES IV(base 64 エンコード)。これはオプションのプロパティで、Key の値が指定されていない場合、ドライバーは内部でIV を生成します。
OAuth
OAuth を使用してPaylocity で認証する必要があります。OAuth では認証するユーザーにブラウザでPaylocity との通信を要求します。詳しくは、ヘルプドキュメントのOAuth セクションを参照してください。
Pay Entry API
Pay Entry API はPaylocity API の他の部分と完全に分離されています。個別のクライアントID とシークレットを使用し、アカウントへのアクセスを許可するにはPaylocity から明示的にリクエストする必要があります。 Pay Entry API を使用すると、個々の従業員の給与情報を自動的に送信できます。 Pay Entry API によって提供されるものの性質が非常に限られているため、CData では個別のスキーマを提供しないことを選択しましたが、UsePayEntryAPI 接続プロパティを介して有効にできます。
UsePayEntryAPI をtrue
に設定する場合は、CreatePayEntryImportBatch、MergePayEntryImportBatch、Input_TimeEntry、およびOAuth
ストアドプロシージャのみ利用できることに注意してください。
製品のその他の機能を使用しようとするとエラーが発生します。また、OAuthAccessToken
を個別に保存する必要があります。これは、この接続プロパティを使用するときに異なるOAuthSettingsLocation を設定することを意味します。
Paylocity のデータをロード
接続を設定したら、CData JDBC Driver と接続情報を使用して、Paylocity のデータをDataFrame としてロードできます。
ステップ2:データの読み取り
remote_table = spark.read.format ( "jdbc" ) \ .option ( "driver" , driver) \ .option ( "url" , url) \ .option ( "dbtable" , "Employee") \ .load ()
Paylocity のデータを表示
ロードしたPaylocity のデータをdisplay 関数を呼び出して確認します。
ステップ3:結果の確認
display (remote_table.select ("FirstName"))
Databricks でPaylocity のデータを分析
Databricks SparkSQL でデータを処理するには、ロードしたデータをTemp View として登録します。
ステップ4:ビューまたはテーブルを作成
remote_table.createOrReplaceTempView ( "SAMPLE_VIEW" )
Temp View を作成したら、SparkSQL を使用してPaylocity のデータをレポート、ビジュアライゼーション、分析用に取得できます。
% sql SELECT FirstName, LastName FROM SAMPLE_VIEW ORDER BY LastName DESC LIMIT 5
Paylocity からのデータは、対象のノートブックでのみ利用可能です。他のユーザーと共有したい場合は、テーブルとして保存します。
remote_table.write.format ( "parquet" ) .saveAsTable ( "SAMPLE_TABLE" )
CData JDBC Driver for Paylocity の30日間無償トライアルをダウンロードして、Databricks でリアルタイムPaylocity のデータの操作をはじめましょう。ご不明な点があれば、サポートチームにお問い合わせください。