この記事では、ETL2020年に展開している様々なELTツールの内、TOPに君臨する7ツールを比較してご紹介。それぞれのツールの特徴や導入時の注意点などを解説します。

現在、あらゆる規模および業界の企業は、人間が把握できないほどの膨大な量のデータにアクセスしています。これらの情報を効率的に処理・分析し、ノイズの中に隠された貴重なデータドリブンなインサイトを明らかにする方法がなければ、これら全ての情報は無駄になります。

ETL(抽出、変換、ロード)プロセスは、複数のソースからデータを収集し、集約されたデータウェアハウスにロードする最も一般的な方法です。ETLプロセスでは、まず情報はデータベース、ファイル、スプレッドシートなどのソースから抽出され、次にデータウェアハウスの基準に準拠するように変換され、最終的にデータウェアハウスにロードされます。

ETLは、データウェアハウスとアナリティクスに欠かせない要素ですが、すべてのETLソフトウェアツールが同じように作られているわけではありません。最適なETLツールは、お客様の状況やユースケースによって異なる場合があります。今回は、2020年とそれ以降を見据えた上で最適なETLソフトウェアツールを7つご紹介したいと思います。

ELTとはなにか?を改めて知りたい方は下記をお読みください。

ETLとは?3つの機能を持つデータ活用のための処理技術

1. Xplenty

2. AWS Glue

3. Alooma 

4. Talend

5. Stitch

6. Informatica PowerCenter

7. Oracle Data Integrator

Top 7 etl tools.png

ETLの比較 今君臨する7つをご紹介

1. Xplenty

Xplentyは、複数のデータソースを簡単に統合するクラウドベースのETLおよびELT(抽出、ロード、変換)データ統合プラットフォームです。Xplentyプラットフォームは、多数のソースとデスティネーション間でデータパイプラインを構築するためのシンプルで直感的なビジュアルインターフェースを提供しています。

Related Reading: ETL vs ELT(日本語)

100以上の人気データストアやSaaSアプリケーションがXplentyにパッケージされています。その中のリストには、MongoDBMySQLPostgreSQLAmazon Redshift、Google Cloud Platform、Facebook、Salesforce、Jira、Slack、QuickBooks、その他多くの統合機能が含まれています。

スケーラビリティ、セキュリティ、優れたカスタマーサポートは、Xplentyのさらにいくつかの利点です。例えば、Xplentyにはフィールドレベルの暗号化と呼ばれる新機能があり、ユーザーは独自の暗号化キーを使ってデータフィールドを暗号化したり復号化したりすることができます。また、Xplentyは、HIPPA、GDPR、CCPAのような法律へのコンプライアンスを確実に維持するようにしています。

これらの優位性のおかげで、XplentyはG2のウェブサイトで83人のレビュアーから5つ星のうち平均4.4を獲得しています。AWS Glueと同様に、Xplentyは2019年のG2の「Leader」の1社に選ばれています。XplentyのレビュアーであるKerry D.氏は次のように書いています:「このツールで達成できなかったことは何も見つかりませんでした。サポートと開発は非常に反応が良く、効果的でした。」

無料トライアルのお申し込みはこちら

Integrate Your Data Today!

Try Xplenty free for 7 days. No credit card required.

2. AWS Glue

AWS Glueは、Amazon Web ServicesのフルマネージドETLサービスで、ビッグデータや分析ワークロードを対象としています。完全にマネージドされたエンドツーエンドのETLサービスとして、AWS GlueはETLワークロードの苦労を取り除くことを目的とし、AWSエコシステムの他の部分とうまく統合されています。

特筆すべき点は、AWS Glueがサーバーレスであるということです。つまり、Amazonが自動的にユーザーのためにサーバーをプロビジョニングし、ワークロードが完了するとサーバーをシャットダウンするということです。また、AWS GlueにはジョブスケジューリングやAWS Glueスクリプトをテストするための「開発者用エンドポイント」などの機能も含まれており、ツールの使いやすさが向上しています。

AWS Glueのユーザーからは、概ね高い評価を得ています。現在、ビジネスソフトウェアレビュープラットフォームのG2では、36件のレビューで5つ星のうち4.1を獲得しています。この温かい評価のおかげで、G2はAWS Glueを2019年の「Leader」に指名しました。

3. Alooma

Aloomaは、クラウド上のデータウェアハウスのためのETLデータ移行ツールです。Aloomaの最大のセールスポイントは、データパイプラインの多くを自動化していることで、技術的に詳細な部分に集中することなく、結果に集中することができます。

Amazon Redshift、Microsoft AzureGoogle BigQueryなどのパブリッククラウドのデータウェアハウスは、過去にはすべてAloomaと互換性がありました。しかし、2019年2月にGoogleがAloomaを買収し、今後の契約はGoogle Cloud Platformのユーザーのみに制限されることになりました。このような展開を考えると、Google以外のデータウェアハウスを使用しているAloomaの顧客は、自社のテクノロジースタックとより密接に連携できるETLソリューションに切り替える可能性が高いと思われます。

とはいえ、Aloomaはユーザーから概ねポジティブな評価を受けており、G2では5つ星のうち4.0の評価を得ています。あるユーザーは次のようにコメントしています。「私はAloomaのコードエンジン機能を通じて提供される柔軟性が大好きです...。」

4. Talend

Talend Data Integrationは、オープンソースのETLデータ統合ソリューションです。Talendプラットフォームは、オンプレミスとクラウドの両方のデータソースと互換性があり、何百もの構築済み統合機能が含まれています。 

オープンソース版のTalendで十分なユーザーもいますが、大企業の場合は、Talendの有料版のデータ管理プラットフォームの方が良いでしょう。有料版のTalendには、設計、生産性、管理、監視、データガバナンスのためのツールや機能が追加されています。

Talendは、G2で47のレビューを受け、5つ星のうち4.0の平均評価を得ています。また、Talendは、2019 Gartner Magic Quadrant for Data Integration Toolsのレポートで「Leader」に選ばれています。レビュアーのJan L.氏は、Talendは 「クリアで分かりやすいインターフェース 」を備えた 「データ統合のための優れた万能ツール 」だと述べています。

Integrate Your Data Today!

Try Xplenty free for 7 days. No credit card required.

5. Stitch

StitchはオープンソースのELTデータ統合プラットフォームです。Talendと同様に、Stitchもまた、より高度なユースケースやより多くのデータソースに対応するための有料サービスを提供しています。この比較は、複数の点で当てはまります。Stitchは2018年11月にTalendに買収されました。

Stitchのプラットフォームは、セルフサービスのELTと自動化されたデータパイプラインを提供し、プロセスをよりシンプルにすることで差別化を図っています。しかし、これから利用しようとするユーザーは、StitchのELTツールが特定の変換に対応していないことに注意する必要があります。その場合はむしろ、Stitchチームは、データウェアハウス内にデータを入れた後、ローデータの変換を行うレイヤーを追加することを推奨しています。

G2ユーザーは、2019年の「ハイパフォーマー」の称号を得るまでもなく、Stitchに概ね肯定的なレビューを与えています。あるレビュアーはStitchの "価格設定のシンプルさ、内部の仕組みのオープンソース性、オンボーディングの容易さ "を称賛しています。しかし、Stitchのレビューの中には、マイナーな技術的な問題や、あまり人気のないデータソースのサポート不足を挙げているものもあります。

6. Informatica PowerCenter

Informatica PowerCenter は、ETL ワークロード向けの成熟した豊富な機能を備えたエンタープライズデータ統合プラットフォームです。PowerCenter は、Informatica のクラウドデータ管理ツール群の 1 つのツールにすぎません。

エンタープライズクラスのデータベースを問わないソリューションである PowerCenter は、SQL データベースと非 SQL データベースの両方を含むさまざまなデータソースに対しての高いパフォーマンスと互換性に定評があります。Informatica PowerCenter のデメリットとしては、ツールの価格が高いこと、学習曲線が難しいことなどが挙げられます。

これらの欠点にもかかわらず、Informatica PowerCenter は、44 件のレビューと G2 で 5 つ星のうち平均 4.3 の評価を得ており、2019 年の G2 の「Leader」に選ばれるほど忠実な支持を得ています。レビュアーのVictor C.氏は、PowerCenterを「おそらく今まで使った中で最も強力なETLツール」と呼んでいますが、PowerCenterの動作が遅いことや、TableauやQlikViewなどの可視化ツールとの統合がうまくいかないことにも不満を感じています。

7. Oracle Data Integrator

Oracle Data Integrator(ODI)は、オラクルのデータ管理エコシステムの一部である包括的なデータ統合ソリューションです。このため、このプラットフォームは、Hyperion Financial ManagementやOracle E-Business Suite(EBS)などの他のオラクル・アプリケーションを現在使用しているユーザーにとっては、最適な選択肢となります。ODIには、オンプレミス版とクラウド版の両方があります(後者はOracle Data Integration Platform Cloudと呼ばれています)。

今回リストアップした他のほとんどのソフトウェア・ツールとは異なり、Oracle Data IntegratorはELTワークロードをサポートしています(ETLはサポートしていません)。また、特定の周辺機能は他のオラクル・ソフトウェアに含まれているため、ODIは他のほとんどのツールよりも質素なものとなっています。

Oracle Data Integratorは、G2で12のレビューを受け、5つ星のうち3.9という平均評価を得ています。G2のレビュアーであるChristopher T.氏によると、ODIは「豊富なオプションを備えた非常に強力なツール」である一方で、「習得するには難しすぎる...トレーニングは絶対に必要」とのことです。

目的別で選ぶ7つのツール

2つのETLソフトウェアツールは同じではなく、それぞれの利点と欠点を持っています。あなたのための最高のETLツールを見つけることは、あなたのビジネス要件、目標、および優先順位の正当な評価が必要になります。

上記のような比較を前提に、以下のリストでは、それぞれのETLツールに興味をもつであろう推奨ユーザーの特徴についていくつか提案したいと思います。

Xplenty: ETLやELTのワークロードを使用している企業、技術者でなくても使用できる直感的なドラッグ&ドロップのインターフェースを好む企業、多くの統合機能を必要とする企業、データセキュリティを重視する企業。
AWS Glue: AWSの既存顧客で、完全にマネージドされたETLソリューションを必要としている企業。
Alooma:Google Cloud Platformを既存顧客。
Talend: オープンソースのソリューションを好む企業、多くの統合機能を必要とする企業。
Stitch:オープンソースのソリューションを好む企業、シンプルなELTプロセスを好む企業。複雑な変換処理を必要としない企業。
Informatica PowerCenter:大規模な予算があり、パフォーマンスへの要求が厳しい大企業。
Oracle Data Integrator:オラクルの既存顧客、ELT ワークロードを使用している企業。

各ツールの操作性について

それぞれのツールの操作性について見てみると、ビジネスユーザーが使えるシンプルなGUIベースのものから、ある程度のコーディングスキルや製品トレーニングを必要とするものまで様々です。ETL製品の選択時には、実際に使用するユーザーのスキルや経験も非常に重要な要素となります。

  • Xplenty: ETL/ELT。ビジネスユーザー/技術者向け。SaaS統合は100種類以上サポート。
  • AWS Glue: ETL、データカタログ。技術者向け。ETLプロセス全体で使用するスクリプトをPythonおよびScalaで自動的に生成。
  • Alooma:ETL。技術者向け。パイプライン内での変換処理にPythonが必要になる場合がある。統合先のDWHはGoogle BigQueryのみサポート。
  • Talend: ETL/ELT。ビジネスユーザー/技術者向け。はじめて使うユーザーには学習曲線が急である。CDC(チェンジデータキャプチャ)、デプロイ管理とチーム開発機能、モニタリング機能などは有償版のみ利用可能。SaaS統合は100種類以上サポート
  • Stitch:ELT。ビジネスユーザー/技術者向け。データの抽出とロードに重点を置き、最低限のロード前のデータ変換機能のみを提供。SaaS統合は100種類以上サポート
  • Informatica PowerCenter:ETL/ELT。技術者向け。あらゆるデータ変換要件に対応できるパワフルなプラットフォーム。使いこなすには、広範囲なトレーニングが必要。
  • Oracle Data Integrator:ELT。技術者向け。Oracle製品との統合がスムーズ。

まとめ

ここまでの内容を表にまとると、以下になります。

今回紹介した7つのETLツールのうち、もしXplentyが自社にとって一番合うETLツールかもしれないと思われたら、是非、私たちのチームにご連絡ください。

Xplentyのオンライン相談に登録して、無料トライアルでプラットフォームを試してみよう!(予約サイトは英語ですが、日本語でデモします)

Xplentyの機能概要や実際の操作感を見てみたい方は、定期的に開催している製品紹介セミナーがおすすめです。

Xplentyのオンラインセミナーに申し込む。