Apache Spark Python Connector

Python で Spark の読み取り、書き込み、更新が可能

Python ベースのデータアクセス、可視化、ORM、ETL、AI/ML、カスタムアプリを Apache Spark SQL と簡単に接続！

Apache Spark へのデータ連携用のPython Connecotr ライブラリ。 pandas、SQLAlchemy、Dash、petl などの主要なPython ツールにApache Spark をシームレスに統合。使いやすい Python Database API（DB-API）モジュールで、Spark データを Python およびあらゆる Python ベースアプリケーションに接続できます。

機能

SQL を Spark SQL にマッピングし、Apache Spark への直接的な標準 SQL-92 アクセスを実現
DataBricks Enterprise Platform に完全対応
Apache Spark SQL ODBC Driver でライブの Apache Spark SQL データに接続し、リアルタイムにデータアクセス
SQL クエリでのデータ集計と複雑な JOIN を完全サポート
TLS 1.2、SHA-256、ECC などの最新暗号化技術による安全な接続。
Spark Connector を介して、主要な BI、レポーティング、ETL ツールやカスタムアプリケーションとシームレスに統合。

仕様

Spark 連携用のPython Database API (DB-API) モジュール。
使い慣れたSQL でApache Spark SQL データにアクセス。Spark に使い慣れたPython Database Connectivity でデータ連携。
pandas、SQLAlchemy、Dash、petl などの人気のPython ツールにシームレスに統合。
Spark SQL とSQL をマッピングし、Apache Spark にSQL-92 で直接クエリを実現。
データ、パラメータ、メタデータの完全な Unicode サポート。

CData Python Connectors の動作を確認！

CData Python Connectors に搭載された強力なデータ統合機能をビデオでご覧ください。

Python Connector の概要ビデオを見る

Apache Spark SQL との Python 接続

Python を通じて、サポートされるあらゆるデータソースへのフル機能で一貫した SQL アクセス

ユニバーサル Python Spark 接続
一般的な Python ベースのフレームワークから Spark データに簡単に接続できます：
- データ分析/可視化：Jupyter Notebook、pandas、Matplotlib
- ORM：SQLAlchemy、SQLObject、Storm
- Web アプリケーション：Dash、Django
- ETL：Apache Airflow、Luigi、Bonobo、Bubbles、petl
人気ツールとの統合

Spark Connector は、Anaconda、Visual Studio Python IDE、PyCharm などの人気のデータサイエンスおよび開発ツールとシームレスに統合できます。
レプリケーションとキャッシュ

レプリケーションおよびキャッシュコマンドにより、Oracle、SQL Server、Google Cloud SQL などのローカルおよびクラウドデータストアへのデータコピーが簡単に行えます。レプリケーションコマンドには、キャッシュデータのインテリジェントな増分更新を可能にする多くの機能が含まれています。
文字列、日付、数値 SQL 関数

Spark Connector には、列の値を目的の結果に変換できる 50 以上の関数ライブラリが含まれています。一般的な例として、Regex、JSON、XML 処理関数があります。

協調クエリ処理

Python Connector は、必要に応じて追加のクライアントサイド処理により Spark の機能を強化し、SUM、AVG、MAX、MIN などのデータの分析サマリーを可能にします。
簡単にカスタマイズ・設定可能

Spark Connector が公開するデータモデルは、新しいビルドを必要とせずに、テーブル/列の追加や削除、データ型の変更などを簡単にカスタマイズできます。これらのカスタマイズは、編集しやすい人間が読めるスキーマファイルを使用して実行時にサポートされます。
エンタープライズクラスの安全な接続

すべてのクライアント・サーバー通信に対する TLS/SSL データ暗号化など、標準的なエンタープライズクラスのセキュリティ機能を搭載しています。

Python で Spark に接続

CData Python Connector は、Database API（DB-API）インターフェースを活用して、幅広い標準的な Python データツールから Spark を簡単に操作できるようにします。Python でのデータへの接続と操作は、データソースに関係なく、基本的なパターンに従います：

Spark への接続プロパティを設定
Spark にクエリを実行してデータを取得または更新
Spark データを Python データツールに接続

Python で Spark に接続する

Python からデータに接続するには、拡張機能をインポートして接続を作成します：

import cdata. as mod
conn = mod.connect("User=user@domain.com; Password=password;")

#Create cursor and iterate over results
cur = conn.cursor()
cur.execute("SELECT * FROM ApacheSpark")

rs = cur.fetchall()

for row in rs:
print(row)

拡張機能をインポートすれば、使い慣れた Python モジュールやツールキットを使用してエンタープライズデータを操作でき、ビジネスを推進するアプリを迅速に構築できます。

pandas で Spark データを可視化

Spark Python Connector のデータ中心のインターフェースにより、pandas や SQLAlchemy などの人気ツールと簡単に統合して、リアルタイムでデータを可視化できます。

engine = create_engine("///Password=password&User=user")

df = pandas.read_sql("SELECT * FROM ApacheSpark", engine)

df.plot()
plt.show()

読み取り専用ではない：完全な更新/CRUD サポート

Spark Connector は読み取り専用機能を超えて、作成、読み取り、更新、削除（CRUD）操作を完全にサポートします。エンドユーザーは、データベーステーブルを操作するのと同じくらい簡単に、 Spark Connector が提供するデータを操作できます。