PowerShell からHDFS のデータに接続してデータの取得・CSV エクスポートを実行する方法

加藤龍彦
加藤龍彦
デジタルマーケティング
CData PowerShell Cmdlets を使って、HDFS のデータに接続、データの取得・CSV エクスポートを実行する方法を紹介します。

CData Cmdlets for HDFS を使えば、PowerShell からHDFS に手軽に連携して、データのCRUD やエクスポートを実行できます。

本記事では、HDFS への接続方法からCSV エクスポート、データの操作までサンプルコード付きで解説していきます。

HDFS への接続を設定

それでは、まずはHDFS への接続設定からはじめていきましょう。接続設定にはCData HDFS Cmdlets が必要となります。右側のサイドバーから製品の全機能が使える30日間の無償トライアルがダウンロードできるので、ぜひご利用ください。

インストールが完了したら、プロファイルに以下の行を追加してください。次のPowerShell セッションでモジュールがロードされます。

    Import-Module HDFSCmdlets;

Connect-HDFS コマンドを使ってHDFS との接続を設定します。各接続プロパティの取得方法は次に説明します。

    $conn = Connect-HDFS  -Host "$Host" -Port "$Port" -Path "$Path" -User "$User"

HDFS 接続プロパティの取得・設定方法

HDFS への認証には、次の接続プロパティを設定します。

  • Host:HDFS インスタンスのホストに設定。
  • Port:HDFS インスタンスのポートに設定。デフォルトのポートは"9870" です。

これで接続設定は完了です。

HDFS のデータを取得してCSV にパイプライン

接続が完了したので、Files テーブルデータを取得して結果をCSV ファイルにエクスポートします。

Select-HDFS -Connection $conn -Table Files | Select -Property * -ExcludeProperty Connection,Table,Columns | Export-Csv -Path c:\myFilesData.csv -NoTypeInformation

このコードでは、Select-HDFS から取得した結果をSelect-Object に流して、Export-Csv に渡す前にいくつかのプロパティを除外しています。これは、CData Cmdlets が接続情報、テーブル、およびカラム情報を結果セットのそれぞれの行に挿入するためです。それらの情報を表示したくない場合に、Export-Csv コマンドに渡す前に除外を先に行い、そのあとでCSV ファイルにエクスポートします。


おわりに

このように、CData Cmdlets を使えばPowerShell でのHDFS のデータへの連携をシンプルに実現できます。ぜひCData PowerShell Cmdlets の30日間無償トライアルをダウンロードして、シンプルかつパワフルなデータ連携をお試しください。

はじめる準備はできましたか?

HDFS Cmdlets の無料トライアルをダウンロードしてお試しください:

 ダウンロード

詳細:

HDFS Icon HDFS Data Cmdlets お問い合わせ

HDFS データにリアルタイム連携を実現するPowerShell Cmdlets。Cmdlets を使って、SQL Server と同感覚で多様なデータにリアルタイムアクセス。