SQLAlchemy ORM を使用して Python で Amazon S3 のデータにアクセスする方法

Jerod Johnson
Senior Technology Evangelist

SQLAlchemy オブジェクトリレーショナルマッピングを使用して、Amazon S3 のデータを操作する Python アプリケーションとスクリプトを作成します。

Python の豊富なモジュールエコシステムを活用することで、迅速に作業を開始し、システムを効果的に統合できます。CData Python Connector for Amazon S3 と SQLAlchemy ツールキットを使用して、Amazon S3 に接続された Python アプリケーションやスクリプトを構築できます。この記事では、SQLAlchemy を使用して Amazon S3 のデータに接続し、クエリを実行する方法を説明します。

CData Python Connector は最適化されたデータ処理機能を内蔵しており、Python からリアルタイムの Amazon S3 のデータを操作する際に比類のないパフォーマンスを提供します。Amazon S3 に対して複雑な SQL クエリを発行すると、CData Connector はフィルタや集計などのサポートされている SQL 操作を直接 Amazon S3 にプッシュし、サポートされていない操作（多くの場合 SQL 関数や JOIN 操作）は組み込みの SQL エンジンを使用してクライアント側で処理します。

Amazon S3 のデータへの接続

Amazon S3 のデータへの接続は、他のリレーショナルデータソースへの接続と同様です。必要な接続プロパティを使用して接続文字列を作成します。この記事では、接続文字列を create_engine 関数のパラメータとして渡します。

Amazon S3 リクエストを認可するには、管理者アカウントまたはカスタム権限を持つIAM ユーザーの認証情報を入力します。AccessKey をアクセスキーID に設定します。SecretKey をシークレットアクセスキーに設定します。

Note: AWS アカウント管理者として接続できますが、AWS サービスにアクセスするにはIAM ユーザー認証情報を使用することをお勧めします。

尚、CData 製品はAmazon S3 のファイルの一覧表示やユーザー管理情報の取得用です。S3 に保管されているExcel、CSV、JSON などのファイル内のデータを読み込みたい場合には、Excel Driver、CSV Driver、JSON Driver をご利用ください。

アクセスキーの取得

IAM ユーザーの資格情報を取得するには：

IAM コンソールにサインインします。
ナビゲーションペインで「ユーザー」を選択します。
ユーザーのアクセスキーを作成または管理するには、ユーザーを選択してから「セキュリティ認証情報」タブを選択します。

AWS ルートアカウントの資格情報を取得するには：

ルートアカウントの資格情報を使用してAWS 管理コンソールにサインインします。
アカウント名または番号を選択し、表示されたメニューで「My Security Credentials」を選択します。
「Continue to Security Credentials」をクリックし、「Access Keys」セクションを展開して、ルートアカウントのアクセスキーを管理または作成します。

AWS ロールとして認証

多くの場合、認証にはAWS ルートユーザーのダイレクトなセキュリティ認証情報ではなく、IAM ロールを使用することをお勧めします。RoleARN を指定することでAWS ロールを代わりに使用できます。これにより、CData 製品は指定されたロールの資格情報を取得しようと試みます。

（すでにEC2 インスタンスなどで接続されているのではなく）AWS に接続している場合は、ロールを引き受けるIAM ユーザーのAccessKey とSecretKey を追加で指定する必要があります。AWS ルートユーザーのAccessKey および SecretKey を指定する場合、ロールは使用できません。

SSO 認証

SSO 認証を必要とするユーザーおよびロールには、RoleARN およびPrincipalArn 接続プロパティを指定してください。各Identity Provider に固有のSSOProperties を指定し、AccessKey とSecretKey を空のままにする必要があります。これにより、CData 製品は一時的な認証資格情報を取得するために、リクエストでSSO 認証情報を送信します。

以下の手順に従って SQLAlchemy をインストールし、Python オブジェクトを通じて Amazon S3 にアクセスしてみましょう。

必要なモジュールのインストール

pip ユーティリティを使用して、SQLAlchemy ツールキットと SQLAlchemy ORM パッケージをインストールします。

pip install sqlalchemy
pip install sqlalchemy.orm

適切なモジュールをインポートします。

from sqlalchemy import create_engine, String, Column
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import sessionmaker

Python での Amazon S3 のデータのモデリング

これで接続文字列を使用して接続できます。create_engine 関数を使用して、Amazon S3 のデータを操作するための Engine を作成します。

注意: 接続文字列のプロパティに特殊文字が含まれている場合は、URL エンコードする必要があります。詳細については、SQL Alchemy ドキュメントを参照してください。

engine = create_engine("amazons3:///?AccessKey=a123&SecretKey=s123")

Amazon S3 のデータのマッピングクラスの宣言

接続を確立したら、ORM でモデル化するテーブルのマッピングクラスを宣言します（この記事では、ObjectsACL テーブルをモデル化します）。sqlalchemy.ext.declarative.declarative_base 関数を使用して、一部またはすべてのフィールド（カラム）を定義した新しいクラスを作成します。

base = declarative_base()
class ObjectsACL(base):
	__tablename__ = "ObjectsACL"
	Name = Column(String,primary_key=True)
	OwnerId = Column(String)
	...

Amazon S3 のデータのクエリ

マッピングクラスを準備したら、セッションオブジェクトを使用してデータソースにクエリを実行できます。Engine をセッションにバインドした後、セッションの query メソッドにマッピングクラスを渡します。

query メソッドの使用

engine = create_engine("amazons3:///?AccessKey=a123&SecretKey=s123")
factory = sessionmaker(bind=engine)
session = factory()
for instance in session.query(ObjectsACL).filter_by(Name="TestBucket"):
	print("Name: ", instance.Name)
	print("OwnerId: ", instance.OwnerId)
	print("---------")

別の方法として、適切なテーブルオブジェクトと execute メソッドを使用することもできます。以下のコードはアクティブな session で動作します。

execute メソッドの使用

ObjectsACL_table = ObjectsACL.metadata.tables["ObjectsACL"]
for instance in session.execute(ObjectsACL_table.select().where(ObjectsACL_table.c.Name == "TestBucket")):
	print("Name: ", instance.Name)
	print("OwnerId: ", instance.OwnerId)
	print("---------")

JOIN、集計、制限などのより複雑なクエリの例については、拡張機能のヘルプドキュメントを参照してください。

無料トライアルと詳細情報

CData Python Connector for Amazon S3 の30日間の無料トライアルをダウンロードして、Amazon S3 のデータに接続する Python アプリとスクリプトの構築を始めましょう。ご質問がありましたら、サポートチームまでお問い合わせください。

はじめる準備はできましたか？

Amazon S3 Connector のコミュニティライセンスをダウンロード：

ダウンロード

詳細：

Amazon S3 Python Connector お問い合わせ

Amazon S3 へのデータ連携用のPython Connecotr ライブラリ。 pandas、SQLAlchemy、Dash、petl などの主要なPython ツールにAmazon S3 をシームレスに統合。

SQLAlchemy ORM を使用して Python で Amazon S3 のデータにアクセスする方法

Amazon S3 のデータへの接続

アクセスキーの取得

AWS ロールとして認証

SSO 認証

必要なモジュールのインストール

Python での Amazon S3 のデータのモデリング

Amazon S3 のデータのマッピングクラスの宣言

Amazon S3 のデータのクエリ

query メソッドの使用

execute メソッドの使用

無料トライアルと詳細情報

はじめる準備はできましたか？

この記事の内容

関連記事

SQLAlchemy ORM を使用して Python で Amazon S3 のデータ にアクセスする方法

Amazon S3 のデータ への接続

アクセスキーの取得

AWS ロールとして認証

SSO 認証

必要なモジュールのインストール

Python での Amazon S3 のデータ のモデリング

Amazon S3 のデータ のマッピングクラスの宣言

Amazon S3 のデータ のクエリ

query メソッドの使用

execute メソッドの使用

無料トライアルと詳細情報

はじめる準備はできましたか？

この記事の内容

関連記事

SQLAlchemy ORM を使用して Python で Amazon S3 のデータにアクセスする方法

Amazon S3 のデータへの接続

Python での Amazon S3 のデータのモデリング

Amazon S3 のデータのマッピングクラスの宣言

Amazon S3 のデータのクエリ