HDFS Python Connector
Python から HDFS への SQL ベースアクセス
Python ベースのデータアクセス、可視化、ORM、ETL、AI/ML、カスタムアプリを Apache HDFS と簡単に接続!
無料トライアルをダウンロード 今すぐ購入
HDFS データ連携用Python コネクタライブラリ。HDFS データをpandas、SQLAlchemy、Dash、petl などの人気のPython ツールにシームレスに統合。 使いやすい Python Database API(DB-API)モジュールで、HDFS データを Python およびあらゆる Python ベースアプリケーションに接続できます。
機能
- Hadoop Distributed File System データへ SQL アクセス
- SQL ストアドプロシージャを使用してファイルの作成、データの追加、権限の設定などのアクションを実行
- Apache HDFS ODBC Driver でライブの Apache HDFS データに接続し、リアルタイムにデータアクセス
- SQL クエリでのデータ集計と複雑な JOIN を完全サポート
- 既存の Apache HDFS データに基づいてテーブルスキーマを自動生成、または必要なコンテンツをより細かく制御するために手動で生成
- HDFS Connector を介して、主要な BI、レポーティング、ETL ツールやカスタムアプリケーションとシームレスに統合。
仕様
- HDFS 連携用のPython Database API (DB-API) モジュール。
- 使い慣れたSQL でApache HDFS データにアクセス。HDFS に使い慣れたPython Database Connectivity でデータ連携。
- Pandas、SQLAlchemy、Dash、petl などの人気のPython ツールにシームレスに統合。
- データ、パラメータ、メタデータの完全な Unicode サポート。
CData Python Connectors の動作を確認!
CData Python Connectors に搭載された強力なデータ統合機能をビデオでご覧ください。
Python Connector の概要ビデオを見るApache HDFS との Python 接続
Python を通じて、サポートされるあらゆるデータソースへのフル機能で一貫した SQL アクセス
-
ユニバーサル Python HDFS 接続
一般的な Python ベースのフレームワークから HDFS データに簡単に接続できます:
- データ分析/可視化:Jupyter Notebook、pandas、Matplotlib
- ORM:SQLAlchemy、SQLObject、Storm
- Web アプリケーション:Dash、Django
- ETL:Apache Airflow、Luigi、Bonobo、Bubbles、petl
-
人気ツールとの統合
HDFS Connector は、Anaconda、Visual Studio Python IDE、PyCharm などの人気のデータサイエンスおよび開発ツールとシームレスに統合できます。
-
レプリケーションとキャッシュ
レプリケーションおよびキャッシュコマンドにより、Oracle、SQL Server、Google Cloud SQL などのローカルおよびクラウドデータストアへのデータコピーが簡単に行えます。レプリケーションコマンドには、キャッシュデータのインテリジェントな増分更新を可能にする多くの機能が含まれています。
-
文字列、日付、数値 SQL 関数
HDFS Connector には、列の値を目的の結果に変換できる 50 以上の関数ライブラリが含まれています。一般的な例として、Regex、JSON、XML 処理関数があります。
-
協調クエリ処理
Python Connector は、必要に応じて追加のクライアントサイド処理により HDFS の機能を強化し、SUM、AVG、MAX、MIN などのデータの分析サマリーを可能にします。
-
簡単にカスタマイズ・設定可能
HDFS Connector が公開するデータモデルは、新しいビルドを必要とせずに、テーブル/列の追加や削除、データ型の変更などを簡単にカスタマイズできます。これらのカスタマイズは、編集しやすい人間が読めるスキーマファイルを使用して実行時にサポートされます。
-
エンタープライズクラスの安全な接続
すべてのクライアント・サーバー通信に対する TLS/SSL データ暗号化など、標準的なエンタープライズクラスのセキュリティ機能を搭載しています。
Python で HDFS に接続
CData Python Connector は、Database API(DB-API)インターフェースを活用して、幅広い標準的な Python データツールから HDFS を簡単に操作できるようにします。Python でのデータへの接続と操作は、データソースに関係なく、基本的なパターンに従います:
- HDFS への接続プロパティを設定
- HDFS にクエリを実行してデータを取得または更新
- HDFS データを Python データツールに接続

Python で HDFS に接続する
Python からデータに接続するには、拡張機能をインポートして接続を作成します:
import cdata. as mod
conn = mod.connect("User=user@domain.com; Password=password;")
#Create cursor and iterate over results
cur = conn.cursor()
cur.execute("SELECT * FROM HDFSData")
rs = cur.fetchall()
for row in rs:
print(row)
拡張機能をインポートすれば、使い慣れた Python モジュールやツールキットを使用して エンタープライズデータを操作でき、ビジネスを推進するアプリを迅速に構築できます。
pandas で HDFS データを可視化
HDFS Python Connector のデータ中心のインターフェースにより、pandas や SQLAlchemy などの 人気ツールと簡単に統合して、リアルタイムでデータを可視化できます。
engine = create_engine("///Password=password&User=user")
df = pandas.read_sql("SELECT * FROM HDFSData", engine)
df.plot()
plt.show()
人気の Python 動画:

