はじめに

Analyticsワークロードのパブリッククラウドへの移行は、近年もっとも重要なビッグデータにおけるトレンドの1つであり、その流れは衰える傾向がありません。

Forrester社の2018年の研究によると

  • 51%の大企業はパブリッククラウド上で複雑なデータ分析を行なっている。
  • 72%の大企業は依然としてオンプレミスのデータセンターでそれを行なっている。

しかしながら、2021年までにForrester社はそれらの数値が逆転するであろうと予想しています。

  • 61%の大企業は複雑なデータ分析にパブリッククラウドを利用するようになる。
  • 44%の大企業は依然としてオンプレミスのデータセンターでそれを行っている。

当然のことながら、パブリッククラウド上でデータが処理される前にデータを移行しておく必要があります。こうした背景のもと、大企業ではデータのサイロ問題、データボリュームの増加、非構造データの取り扱い、さらにはセキュリティやコンプライアンス問題といった課題に対処するために、安定したデータ移行ソリューションへのニーズがますます高まっています。

Azure Data Factoryは、Microsoft Azureからデータを移行するためのサービスで、Azureユーザーは、それを使ってETLパイプラインを構築することができます。しかし、Azure Data Factoryには複数の手段やコンフィギュレーションがあり、どの手段が果たしてみなさんのビジネスに対して最適な方法かが分かりません。

この記事では、パブリッククラウドにおけるAnalyticsのワークロードにMicrosoft Azure Data FactoryでETLを使用する場合の課題について説明します。

Table of Contents

 

ETLについて

ETL(Extract, Transform, Loadの頭文字を意味する)は、データ統合プロセスにおいて最もよく使われるパラダイムの1つです。

ETLの3つのステップは、

  • Extract(抽出):まずはじめに、ファイルやデータベースといったデータソースからデータを抽出します。
  • Transform(変換):次にソースのデータフォーマットをターゲットとなるデータスキーマに合わせるために変換を行います。
  • Load(ロード):最後に変換されたデータをターゲットとなるBIやレポーテングに利用するためのデータウェアハウスへデータをロードします。

分析に必要なデータはすでに多様な形式で様々な場所に存在しているかもしれません。最大限に効率化を図るためには、こういったデータはデータウェアハウスのような集約化されたレポジトリに保存する必要があります。ETLは、データ移行プロセスにおいて重要な部分を占め、それによって簡単かつ効率的に多様なデータソースを統合することができます。

ETLは、別のデータ統合パラダイムであるELTと密接に関連しています。ETLELTは、ロードと変換処理の実行順序が異なります。データ専門家は、ELTを使用して、変換するデータを選択することができ、大量の非構造化情報を取り込む際にかかる時間を節約することができます。

 

Azure Data Factoryとは?

Azure Data Factoryは、Microsoft AzureのユーザーがAzureのさまざまなソースからデータを収集することのできるフルマネージドなデータ移行および統合サービスです。

Azure Data Factoryサービスを使用すると、ユーザーはMicrosoft SQL ServerのオンプレミスデータはもちろんのことAzure SQL DatabaseAzure Blob StorageやAzure Table Storageといったクラウドデータについても統合することができます。

Azure Data Factoryが関連データを収集すると、Azure HDInsightApache HiveApache Pig)などのツールでデータを処理することができます。 Azure Data Factoryは、データ統合プロセス全体をエンドツーエンドで自動化およびオーケストレーションし、ユーザーはETLデータパイプラインについて透明化された状態で管理することが可能です。

Microsoftによると、Azure Data Factoryは、「従来の抽出-変換-読み込み(ETL)プラットフォームではなく、抽出-読み込み(EL)および変換-読み込み(TL)プラットフォームに近い」とのことです。Azure Data Factoryは、移行の際に複雑なデータ変換を実行するというよりはむしろ、データ自体のオーケストレーションと移行に重点を置いています。

さらに、Azure Data Factoryはテクニカルな面においては完全なETLツールとは言えません。Azure Data Factoryは、データソースを変換するしないに関係なく、さまざまなタスクを実行する制御フローを定義できます。とは言え、つい最近まで、Azure Data Factoryには、データ移行の根幹となるデータフローがサポートされていませんでした。

 

SSISとは?

Microsoft SSIS (SQL Server Integration Services) は、Microsoft SQL Serverデータベースソフトウェアの一部であるオンプレミスのデータ移行および統合ツールです。

SSISは、Microsoftのデータ変換サービス(DTS)ツールキットの代わりとしてSQL Server 2005に初めて登場しました。 Azure Data Factoryが導入される前は、SSISは、SQL Serverとの間でデータ統合および変換パイプラインを構築するための主要なツールでした。

幅広い機能を備えたSSISには、次のような機能が含まれています。

  • SQLステートメントの実行
  • データソースの収集、クレンジング、およびマージ
  • データベース(SQL ServerOracleDb2など)やExcelスプレッドシートなどのソースからのデータ抽出
  • ETLデータソースとターゲットの定義
  • ユーザーフレンドリーなGUIツールとウィザード

Azure Data Factoryの登場により、SSISがすぐに消えてなくなるということはなさそうです。2つのツールは友好的かつ競合関係にあると言えます。 Azure Data Factoryの新しいバージョンには、Integration Runtimeが含まれています。これは、さまざまなネットワーク環境においてデータ統合機能を提供します。特に、この機能により、Azure Data FactorySSISパッケージ(異なるデータソース間でインポートおよびエクスポートを行うことができる自動化されたパイプライン)を実行することができます。

 

Mapping Data Flowsとは?

パブリッククラウドへの移行に伴い、MicrosoftETLおよびデータ移行サービスについて再考する必要がありました。 SSISは、オンプレミスおよびIaaS(サービスとしてのインフラストラクチャ)ワークロードに適していますが、パブリッククラウドでの使用には適していません。

Mapping Data FlowsAzure Data Factoryの新しい機能であり、201910月に一般リリースされました。データフローのマッピングにより、Azure Data Factoryは、制御フローとデータフローの両方を組み合わせてデータウェアハウスの内外に情報を移行する完全なETLソリューションになりました。

Mapping Data Flowsを使用することにより、Azureのお客様は、コードを記述することなく、使いやすいビジュアルインターフェイスでデータ変換を構築できます。これらのデータフローは、Azure Data Factoryパイプライン内のActivityとして実行されます。

マイクロソフトのプロダクトマネジメントのパートナーディレクターであるMike Flasko氏は「Data Factoryは、クラウド上でETLを簡素化し、インフラ管理を必要とせず、任意のデータサイズに拡張できるプログラミング不要かつサーバーレス環境であるMapping Data Flowsでユーザーを支援します。」と述べています。

Mapping Data FlowsWYSIWYG環境の利便性により、Azure Data Factoryユーザーは、コードファーストかどうかに関係なく、ニーズに最適なデータパイプラインを開発するための柔軟性を追加で得ることができます。Mapping Data FlowsでサポートされるETL Activityは次のとおりです。

  • Join
  • Aggregate
  • Pivot
  • Unpivot
  • Split
  • Lookup
  • Sort

Mapping Data Flowsは、現在テック業界を悩ませている「データサイエンティスト不足」を解決するための重要なステップです。 「市民のデータサイエンティスト」(IT技術者ではないが、データドリブンな意思決定を行うためにデータを必要としている社員)は、Mapping Data Flowsによりデータ統合および変換プロセスを簡素化するETLパイプラインを構築できます。

MicrosoftのデータプラットフォームMVPMost Valuable Professional)の1人であるKamil Nowinski有益なブログSSISからMapping Data Flowsへの移行について記述し、Azureのお客様がSSISワークフローを新しいシステムに乗せ替えるのを支援しています。

 

SSIS もしくは Azure Data Factory Mapping Data flows

とはいえ、Azure Data FactoryETLを実行する際の最良の選択肢は何でしょうか?

Mapping Data Flowsは、Azure Data FactoryETLを実行する最新の方法ですが、それだけでは十分とは言えません。Azure Data Factoryの新しい統合ランタイム機能のおかげで、Azure Data FactoryからSSISパッケージを実行することができ、それによりオンプレミスのデータワークロードを維持することができます。

Mapping Data FlowsSSISはどちらも、ETLデータパイプラインの構築プロセスを劇的に簡素化します。 SSISは、オンプレミス、クラウド、またはハイブリッドクラウド環境で実行できますが、Mapping Data Flowsは現在、クラウドのデータ移行においてのみ利用可能です。

SSISAzure Data Factoryを組み合わせる必要がある?それは状況によります。 Azure Data Factoryはクラウド内の大量のデータに対応する堅牢なツールですが、一方SSISはより軽量で小規模なジョブに適しています。また、両方のテクノロジーを同時に使用するのが適切かどうか、それぞれの棲み分けも含め考慮した上で検討ください。

 

Azure Data Factory以外の選択肢

完全な機能群とマーケットからの好意的な評価にもかかわらず、Azure Data Factoryにはいくつかの重要な制約があります。最も明らかなものとして、Azure Data Factoryは、主にMicrosoft Azure上のソースからデータ統合を必要としているユーザーを対象としています。

Azure Data Factoryでは、Amazon RedshiftMongoDBSalesforceなどのサードパーティソースからのデータに対してのサポートが制限されています。Azure Data Factoryの接続先および統合対象のリストは、他のデータ統合ソリューションと比べて広範囲にカバーできているとは言えません。

Xplentyは、すべてのETLのターゲットソースからクラウドデータウェアハウスへのパイプラインの構築を容易に行うことが出来るETLデータ統合プラットフォームです。シンプルなドラッグアンドドロップインターフェイスと100を超える事前構築済みの統合機能により、強力で情報豊富なETLワークフローを構築できるため、よりスマートなビジネスに関するインサイトを得ることができます。

ビジネスソフトウェアレビューサイトG2によると、Xplentyの平均評価は5つ星のうち4.4とされています。 G2は、Xplentyを「2019年秋のリーダー」と命名し、クラウドデータ統合ソリューションにおいてナンバーワンを獲得しました。

企業のCIOでありG2のレビュアーでもあるStephen F.は、Xplentyを「もし強力で使いやすいデータ移行方法を探しているなら、Xplentyは素晴らしいツールでしょう。彼らのサポートは信じられないほどです。彼らは信じられないほど反応が早い上に有用で、サポート担当は彼らの製品について理解しています。」

 

最後に

Azure Data Factoryは、Microsoft SQL ServerAzure SQL DatabaseAzure Blob StorageAzure Table Storageなどのソースからの構造化、半構造化、および非構造化データを統合するための堅牢で成熟したソリューションです。また、Power BIAzure HDInsightなどのMicrosoftBIおよび分析ソリューションともうまく統合できます。

SSISは、かつてはETLデータパイプラインを構築するためのマイクロソフトの推奨ツールでしたが、現在ではAzure Data Factoryの独自のMapping Data Flows機能と競合関係にあります。データフローのマッピングとSSISの長所と短所を比較検討し、目的に合ったデータ移行ソリューションを決定してください。

Azure Data Factoryよりも広範囲な機能を持つクラウドデータ統合ソリューションをお探しの場合は、Xplentyをお試しください。 Xplentyデータ統合プラットフォームには、「Azure SQL Database」や「Azure Blob Storage」など、最も人気のあるデータストアおよび分析ツールとの統合のために用意されているコネクターが含まれています。

Xplentyの無料トライアルを希望される方は、以下のサイトよりお申し込みください。

Xplentyのオンラインデモに登録して、無料トライアルでプラットフォームを試してみよう!

Xplentyの機能概要や実際の操作感を見てみたい方は、定期的に開催している製品紹介セミナーがおすすめです。

Xplentyのオンラインセミナーに申し込む。