Python で pandas を使って Bitbucket データを可視化する方法

Jerod Johnson
Jerod Johnson
Senior Technology Evangelist
pandas などのモジュールを使って Python で Bitbucket のデータをリアルタイムに分析・可視化する方法を紹介します。

Python の豊富なエコシステムを活用することで、作業を迅速に開始し、システム間の連携をより効果的に行うことができます。CData Python Connector for Bitbucket、pandas および Matplotlib モジュール、SQLAlchemy ツールキットを組み合わせることで、Bitbucket に接続した Python アプリケーションやスクリプトを構築し、Bitbucket のデータを可視化できます。この記事では、pandas、SQLAlchemy、Matplotlib の組み込み関数を使用して Bitbucket のデータに接続し、クエリを実行して結果を可視化する方法を説明します。

CData Python Connector は、組み込みの最適化されたデータ処理機能により、Python での Bitbucket のデータへのリアルタイムアクセスにおいて比類のないパフォーマンスを提供します。Bitbucket に対して複雑な SQL クエリを発行すると、ドライバーはフィルタや集計などのサポートされている SQL 操作を Bitbucket に直接プッシュし、サポートされていない操作(多くの場合、SQL 関数や JOIN 操作)は組み込みの SQL エンジンを使用してクライアント側で処理します。

Bitbucket のデータへの接続

Bitbucket のデータへの接続は、他のリレーショナルデータソースへの接続と同様です。必要な接続プロパティを使用して接続文字列を作成します。この記事では、接続文字列を create_engine 関数のパラメータとして渡します。

ほとんどのクエリでは、ワークスペースを設定する必要があります。唯一の例外は、Workspacesテーブルです。このテーブルはこのプロパティの設定を必要とせず、クエリを実行すると、Workspaceの設定に使用できるワークスペーススラッグのリストが提供されます。このテーブルにクエリを実行するには、スキーマを'Information'に設定し、SELECT * FROM Workspacesクエリを実行する必要があります。

Schemaを'Information'に設定すると、一般的な情報が表示されます。Bitbucketに接続するには、以下のパラメータを設定してください。

  • Schema: ワークスペースのユーザー、リポジトリ、プロジェクトなどの一般的な情報を表示するには、これを'Information'に設定します。それ以外の場合は、クエリを実行するリポジトリまたはプロジェクトのスキーマに設定します。利用可能なスキーマの完全なセットを取得するには、sys_schemasテーブルにクエリを実行してください。
  • Workspace: Workspacesテーブルにクエリを実行する場合を除き、必須です。Workspacesテーブルへのクエリにはこのプロパティは必要ありません。そのクエリはWorkspaceの設定に使用できるワークスペーススラッグのリストのみを返すためです。

Bitbucketでの認証

BitbucketはOAuth認証のみをサポートしています。すべてのOAuthフローからこの認証を有効にするには、カスタムOAuthアプリケーションを作成し、AuthSchemeをOAuthに設定する必要があります。

特定の認証ニーズ(デスクトップアプリケーション、Webアプリケーション、ヘッドレスマシン)に必要な接続プロパティについては、ヘルプドキュメントを必ず確認してください。

カスタムOAuthアプリケーションの作成

Bitbucketアカウントから、以下のステップを実行します。

  1. 設定(歯車アイコン)に移動し、ワークスペース設定を選択します。
  2. アプリと機能セクションで、OAuthコンシューマーを選択します。
  3. コンシューマーを追加をクリックします。
  4. カスタムアプリケーションの名前と説明を入力します。
  5. コールバックURLを設定します。
    • デスクトップアプリケーションとヘッドレスマシンの場合、http://localhost:33333または任意のポート番号を使用します。ここで設定するURIがCallbackURLプロパティになります。
    • Webアプリケーションの場合、信頼できるリダイレクトURLにコールバックURLを設定します。このURLは、ユーザーがアプリケーションにアクセスが許可されたことを確認するトークンを持って戻るWebの場所です。
  6. クライアント認証情報を使用して認証する予定の場合、これはプライベートコンシューマーですを選択する必要があります。ドライバーでは、AuthSchemeをclientに設定する必要があります。
  7. OAuthアプリケーションに与える権限を選択します。これにより、読み取りおよび書き込みできるデータが決まります。
  8. 新しいカスタムアプリケーションを保存するには、保存をクリックします。
  9. アプリケーションが保存された後、それを選択して設定を表示できます。アプリケーションのKeyとSecretが表示されます。これらを将来の使用のために記録してください。Keyを使用してOAuthClientIdを設定し、Secretを使用してOAuthClientSecretを設定します。

以下の手順に従って、必要なモジュールをインストールし、Python オブジェクトを介して Bitbucket にアクセスしてみましょう。

必要なモジュールのインストール

pip ユーティリティを使用して、pandas、Matplotlib モジュール、および SQLAlchemy ツールキットをインストールします。

pip install pandas
pip install matplotlib
pip install sqlalchemy

以下のようにモジュールをインポートしてください。

import pandas
import matplotlib.pyplot as plt
from sqlalchemy import create_engine

Python で Bitbucket のデータを可視化する

接続文字列を使用して接続できます。create_engine 関数を使用して、Bitbucket のデータを操作するための Engine を作成します。

engine = create_engine("bitbucket:///?Workspace=myworkspaceslug&Schema=Information")

Bitbucket への SQL の実行

pandas の read_sql 関数を使用して、SQL ステートメントを実行し、結果セットを DataFrame に格納します。

df = pandas.read_sql("SELECT Title, ContentRaw FROM Issues WHERE Id = '1'", engine)

Bitbucket のデータの可視化

クエリ結果が DataFrame に格納されたら、plot 関数を使用して Bitbucket のデータを表示するグラフを作成します。show メソッドで、グラフを新しいウィンドウに表示します。

df.plot(kind="bar", x="Title", y="ContentRaw")
plt.show()

無料トライアル & 詳細情報

CData Python Connector for Bitbucket の 30日間無料トライアルをダウンロードして、Bitbucket のデータに接続する Python アプリケーションやスクリプトの構築を始めましょう。ご質問がありましたら、サポートチームまでお気軽にお問い合わせください。



完全なソースコード

import pandas
import matplotlib.pyplot as plt
from sqlalchemy import create_engin

engine = create_engine("bitbucket:///?Workspace=myworkspaceslug&Schema=Information")
df = pandas.read_sql("SELECT Title, ContentRaw FROM Issues WHERE Id = '1'", engine)

df.plot(kind="bar", x="Title", y="ContentRaw")
plt.show()

はじめる準備はできましたか?

Bitbucket Connector のコミュニティライセンスをダウンロード:

 ダウンロード

詳細:

Bitbucket Icon Bitbucket Python Connector お問い合わせ

Bitbucket へのデータ連携用のPython Connecotr ライブラリ。 Pandas、SQLAlchemy、Dash、petl などの主要なPython ツールにBitbucket をシームレスに統合。