Apache Spark Python Connector

Python で Spark の読み取り、書き込み、更新が可能

Python ベースのデータアクセス、可視化、ORM、ETL、AI/ML、カスタムアプリを Apache Spark SQL と簡単に接続!


  無料トライアルをダウンロード   今すぐ購入

その他の テクノロジー


Spark Logo

Apache Spark へのデータ連携用のPython Connecotr ライブラリ。 pandas、SQLAlchemy、Dash、petl などの主要なPython ツールにApache Spark をシームレスに統合。 使いやすい Python Database API(DB-API)モジュールで、Spark データを Python およびあらゆる Python ベースアプリケーションに接続できます。

機能

  • SQL を Spark SQL にマッピングし、Apache Spark への直接的な標準 SQL-92 アクセスを実現
  • DataBricks Enterprise Platform に完全対応
  • Apache Spark SQL ODBC Driver でライブの Apache Spark SQL データに接続し、リアルタイムにデータアクセス
  • SQL クエリでのデータ集計と複雑な JOIN を完全サポート
  • TLS 1.2、SHA-256、ECC などの最新暗号化技術による安全な接続。
  • Spark Connector を介して、主要な BI、レポーティング、ETL ツールやカスタムアプリケーションとシームレスに統合。

仕様

  • Spark 連携用のPython Database API (DB-API) モジュール。
  • 使い慣れたSQL でApache Spark SQL データにアクセス。Spark に使い慣れたPython Database Connectivity でデータ連携。
  • pandas、SQLAlchemy、Dash、petl などの人気のPython ツールにシームレスに統合。
  • Spark SQL とSQL をマッピングし、Apache Spark にSQL-92 で直接クエリを実現。
  • データ、パラメータ、メタデータの完全な Unicode サポート。


CData Python Connectors の動作を確認!

CData Python Connectors に搭載された強力なデータ統合機能をビデオでご覧ください。

Python Connector の概要ビデオを見る

Apache Spark SQL との Python 接続

Python を通じて、サポートされるあらゆるデータソースへのフル機能で一貫した SQL アクセス


  • ユニバーサル Python Spark 接続

    一般的な Python ベースのフレームワークから Spark データに簡単に接続できます:


    • データ分析/可視化:Jupyter Notebook、pandas、Matplotlib
    • ORM:SQLAlchemy、SQLObject、Storm
    • Web アプリケーション:Dash、Django
    • ETL:Apache Airflow、Luigi、Bonobo、Bubbles、petl
  • 人気ツールとの統合

    Spark Connector は、Anaconda、Visual Studio Python IDE、PyCharm などの人気のデータサイエンスおよび開発ツールとシームレスに統合できます。

  • レプリケーションとキャッシュ

    レプリケーションおよびキャッシュコマンドにより、Oracle、SQL Server、Google Cloud SQL などのローカルおよびクラウドデータストアへのデータコピーが簡単に行えます。レプリケーションコマンドには、キャッシュデータのインテリジェントな増分更新を可能にする多くの機能が含まれています。

  • 文字列、日付、数値 SQL 関数

    Spark Connector には、列の値を目的の結果に変換できる 50 以上の関数ライブラリが含まれています。一般的な例として、Regex、JSON、XML 処理関数があります。

  • 協調クエリ処理

    Python Connector は、必要に応じて追加のクライアントサイド処理により Spark の機能を強化し、SUM、AVG、MAX、MIN などのデータの分析サマリーを可能にします。

  • 簡単にカスタマイズ・設定可能

    Spark Connector が公開するデータモデルは、新しいビルドを必要とせずに、テーブル/列の追加や削除、データ型の変更などを簡単にカスタマイズできます。これらのカスタマイズは、編集しやすい人間が読めるスキーマファイルを使用して実行時にサポートされます。

  • エンタープライズクラスの安全な接続

    すべてのクライアント・サーバー通信に対する TLS/SSL データ暗号化など、標準的なエンタープライズクラスのセキュリティ機能を搭載しています。

Python で Spark に接続

CData Python Connector は、Database API(DB-API)インターフェースを活用して、幅広い標準的な Python データツールから Spark を簡単に操作できるようにします。Python でのデータへの接続と操作は、データソースに関係なく、基本的なパターンに従います:

  • Spark への接続プロパティを設定
  • Spark にクエリを実行してデータを取得または更新
  • Spark データを Python データツールに接続


Python で Spark に接続する

Python からデータに接続するには、拡張機能をインポートして接続を作成します:

import cdata. as mod
conn = mod.connect("User=user@domain.com; Password=password;")

#Create cursor and iterate over results
cur = conn.cursor()
cur.execute("SELECT * FROM ApacheSpark")

rs = cur.fetchall()

for row in rs:
print(row)

拡張機能をインポートすれば、使い慣れた Python モジュールやツールキットを使用して エンタープライズデータを操作でき、ビジネスを推進するアプリを迅速に構築できます。

pandas で Spark データを可視化

Spark Python Connector のデータ中心のインターフェースにより、pandas や SQLAlchemy などの 人気ツールと簡単に統合して、リアルタイムでデータを可視化できます。

engine = create_engine("///Password=password&User=user")

df = pandas.read_sql("SELECT * FROM ApacheSpark", engine)

df.plot()
plt.show()

読み取り専用ではない:完全な更新/CRUD サポート

Spark Connector は読み取り専用機能を超えて、作成、読み取り、更新、削除(CRUD)操作を 完全にサポートします。エンドユーザーは、データベーステーブルを操作するのと同じくらい簡単に、 Spark Connector が提供するデータを操作できます。