SharePoint のデータをApache Kafka トピックにストリーミング

Dibyendu Datta
Lead Technology Evangelist

CData JDBC Driver とKafka Connect JDBC コネクタを使用して、Apache Kafka でSharePoint のデータにアクセスし、ストリーミングできます。

Apache Kafka は、主にリアルタイムデータパイプラインやイベント駆動型アプリケーションの構築に使用されるオープンソースのストリーム処理プラットフォームです。CData JDBC Driver for SharePointと組み合わせることで、Kafka はライブのSharePoint のデータを扱うことができます。この記事では、SharePoint データをApache Kafka トピックに接続、アクセス、ストリーミングする方法と、Confluent Control Center を起動してConfluent プラットフォームのKafka インフラストラクチャを使用して受信したSharePoint のデータをユーザーが安全に管理および監視できるようにする方法について説明します。

CData JDBC Driver は最適化されたデータ処理機能を内蔵しており、ライブのSharePoint のデータとのやり取りにおいて比類のないパフォーマンスを提供します。SharePoint に複雑なSQL クエリを発行すると、ドライバーはフィルタや集計などのサポートされているSQL 操作を直接SharePoint にプッシュし、サポートされていない操作（多くの場合SQL 関数やJOIN 操作）については組み込みのSQL エンジンを使用してクライアント側で処理します。組み込みの動的メタデータクエリにより、ネイティブのデータ型を使用してSharePoint のデータを操作および分析できます。

SharePoint データ連携について

CData を使用すれば、SharePoint のライブデータへのアクセスと統合がこれまでになく簡単になります。お客様は CData の接続機能を以下の目的で利用しています：

Windows SharePoint Services 3.0、Microsoft Office SharePoint Server 2007 以降、SharePoint Online を含む、幅広い SharePoint バージョンのデータにアクセスできます。
非表示カラムとルックアップカラムのサポートにより、SharePoint のすべてにアクセスできます。
フォルダを再帰的にスキャンして、すべての SharePoint データのリレーショナルモデルを作成できます。
SQL ストアドプロシージャを使用して、ドキュメントや添付ファイルをアップロード・ダウンロードできます。

多くのお客様は、SharePoint データをデータベースやデータウェアハウスに統合するために CData ソリューションを活用していますが、Power BI、Tableau、Excel などのお気に入りのデータツールと SharePoint データを統合しているお客様もいます。

お客様が CData の SharePoint ソリューションで問題を解決している方法については、ブログをご覧ください：Drivers in Focus: Collaboration Tools

はじめに

前提条件

Apache Kafka トピックでSharePoint のデータをストリーミングするためにCData JDBC Driver を接続する前に、クライアントのLinux ベースのシステムに以下をインストールおよび設定してください。

Confluent Platform for Apache Kafka
Confluent Hub CLI のインストール
Confluent Platform 用のSelf-Managed Kafka JDBC Source Connector

SharePoint のデータへの新しいJDBC 接続を定義

Linux ベースのシステムにCData JDBC Driver for SharePointをダウンロードします。
以下の手順に従って新しいディレクトリを作成し、すべてのドライバーの内容を展開します:
1. SharePoint という名前の新しいディレクトリを作成します。
```
		mkdir SharePoint
		
```
2. ダウンロードしたドライバーファイル（.zip）をこの新しいディレクトリに移動します。
```
		mv SharePointJDBCDriver.zip SharePoint/
		
```
3. CData SharePointJDBCDriver の内容をこの新しいディレクトリに解凍します。
```
		unzip SharePointJDBCDriver.zip
		
```
SharePoint ディレクトリを開き、lib フォルダに移動します。
```
ls
cd lib/
```
CData JDBC Driver for SharePoint のlib フォルダの内容をKafka Connect JDBC のlib フォルダにコピーします。Kafka Connect JDBC フォルダの内容を確認し、cdata.jdbc.sharepoint.jar ファイルがlib フォルダに正常にコピーされたことを確認します。
```
cp -r /path/to/CData JDBC Driver for SharePoint/lib/* /usr/share/confluent-hub-components/confluentinc-kafka-connect-jdbc/lib/
cd /usr/share/confluent-hub-components/confluentinc-kafka-connect-jdbc/lib/
```
以下のコマンドを使用して、CData SharePoint JDBC ドライバーのライセンスをインストールします。名前とメールアドレスを入力してください。
```
	java -jar cdata.jdbc.sharepoint.jar -l
	
```
プロダクトキーまたは"TRIAL" を入力します（ライセンスの有効期限が切れた場合は、CData サポートチームまでお問い合わせください）。
以下のコマンドを使用してConfluent ローカルサービスを起動します:
```
	confluent local services start
	
```
これにより、Zookeeper、Kafka、Schema Registry、Kafka REST、Kafka CONNECT、ksqlDB、Control Center などのすべてのConfluent サービスが起動します。これで、CData JDBC Driver for SharePoint を使用してKafka Connect Driver 経由でksqlDB のKafka トピックにメッセージをストリーミングする準備が整いました。
POST HTTP API リクエストを使用してKafka トピックを手動で作成します:
```
 curl --location 'server_address:8083/connectors'
	--header 'Content-Type: application/json'
	--data '{
		"name": "jdbc_source_cdata_sharepoint_01",
		"config": {
			"connector.class": "io.confluent.connect.jdbc.JdbcSourceConnector",
			"connection.url": "jdbc:sharepoint:User=myuseraccount;Password=mypassword;Auth Scheme=NTLM;URL=http://sharepointserver/mysite;SharePointEdition=SharePointOnPremise;",
		"topic.prefix": "sharepoint-01-",
		"mode": "bulk"
		}
	}'
```
HTTP POST 本文（上記）で使用されるフィールドについて説明します:
- connector.class: 使用するKafka Connect コネクタのJava クラスを指定します。
- connection.url: SharePoint データに接続するためのJDBC 接続URL です。
  組み込みの接続文字列デザイナー
  
  JDBC URL の作成については、CData JDBC Driver for SharePointに組み込まれた接続文字列デザイナーを使用してください。JAR ファイルをダブルクリックするか、コマンドラインからjar ファイルを実行します。
```
		java -jar cdata.jdbc.sharepoint.jar
		
```
  接続プロパティを入力し、接続文字列をクリップボードにコピーします。
  
  Microsoft SharePoint への接続
  
  URL の設定：
  
  Microsoft SharePoint では、2つの範囲でデータを操作できます。グローバルなMicrosoft SharePoint サイト全体を対象にするか、個々のサイトのみを対象にするかを選択できます。
  
  グローバルなMicrosoft SharePoint サイトですべてのリストおよびドキュメントを操作したい場合は、URL 接続プロパティをサイトコレクションURL に設定しましょう。以下のような形式です。
```
https://teams.contoso.com
```
  個々のサイトのリストおよびドキュメントのみを扱いたい場合は、URL 接続プロパティを個々のサイトURL に設定してください。以下のような形式です。
```
https://teams.contoso.com/TeamA
```
  続いて、お使いの環境に適した認証プロパティを設定していきましょう。詳細な設定手順については、 href="/kb/help/" target="_blank">ヘルプドキュメントの「はじめに」をご参照ください。
  
  Microsoft SharePoint Online
  
  SharePointEdition を"SharePoint Online" に設定し、User およびPassword にはSharePoint へのログオンで使用するクレデンシャル（例：Microsoft Online Services アカウントのクレデンシャル）を設定します。
  
  Microsoft SharePoint Online は様々なクラウドベースアーキテクチャをサポートしており、それぞれ異なる認証スキームが利用できます。
  - Microsoft Entra ID（Azure AD）
  - ADFS、Okta、OneLogin、またはPingFederate SSO ID プロバイダーを介したシングルサインオン（SSO）
  - Azure MSI
  - Azure パスワード
  - OAuthJWT
  - SharePointOAuth
  Microsoft SharePoint オンプレミス
  
  Microsoft SharePoint オンプレミスでは、多くのオンプレミス環境に対応した認証方式をサポートしています。
  - Windows（NTLM）
  - Kerberos
  - ADFS
  - 匿名アクセス
  まずSharePointEdition を"SharePoint On-Premises" に設定しましょう。
  
  Windows（NTLM）認証
  
  これは最も一般的な認証方式です。そのため、CData 製品ではNTLM をデフォルトとして使用するよう事前設定されています。Windows のUser およびPassword を設定するだけで接続できます。
- topic.prefix: コネクタによって作成されるKafka トピックに追加されるプレフィックスです。「sharepoint-01-」に設定されています。
- mode: コネクタの動作モードを指定します。ここでは「bulk」に設定されており、コネクタがバルクデータ転送を実行するように設定されていることを示しています。
このリクエストにより、SharePoint のすべてのテーブル/コンテンツがKafka トピックとして追加されます。

注意: リクエストをPOST するIP アドレス（サーバー）は、Linux ネットワークのIP アドレスです。
ksqlDB を実行し、トピックを一覧表示します。以下のコマンドを使用します:
```
ksql
list topics;
```
トピック内のデータを表示するには、以下のSQL ステートメントを入力します:
```
PRINT topic FROM BEGINNING;
```

Confluent Control Center への接続

Confluent Control Center のユーザーインターフェースにアクセスするには、上記のセクションで説明した"confluent local services" を実行し、ローカルブラウザでhttp://<server address>:9021/clusters/ と入力してください。