データ統合ソリューションは、一般的にETLとELTのどちらか一方のアプローチが他方よりも優れていると主張しています。実際には、ETL(抽出、変換、ロード)とELT(抽出、ロード、変換)の両方が、データ統合分野で不可欠な役割を果たしています。

  • ETLは、データ品質、データセキュリティ、データコンプライアンスの面において真価を発揮します。また、データウェアハウスのコストを節約することもできます。しかし、ETLは非構造化データのインジェストには時間がかかり、柔軟性に欠けることがあります。 
  • ELTは、大量の生の非構造化データをインジェストする場合には高速です。また、データ統合やデータ分析戦略に柔軟性をもたらします。しかし、多くの場合、ELTはデータの品質、セキュリティ、コンプライアンスを犠牲にします。

ETLとELTには異なる長所と短所があるため、多くの企業ではハイブリッドな 「ETLT 」アプローチを使用して、両方のソリューションのいいとこ取りをしています。ETLTの様々な疑問を理解するのにこのガイドをお役立てください。 

このブログをナビゲートするには、以下のリンクを使用してください。

  1. ETLとELTの概要
  2. ETL vs. ELT: それぞれの優位性とユースケース
  3. ETLTとは? ETLTはどのようにETLとELTの「いいとこ取り」を行うか?
  4. ETLT: 優位性とユースケース
  5. ETLT and Integrate.io

ETLとELTの概要

ここでは、ETLとELTの背景にある歴史と用途をレビューします。

ETLとは?

歴史的に、データウェアハウスは、正確なビジネスインテリジェンスのために、大規模なデータセットを高速に読み取るように最適化されていました。そのため、データウェアハウスは読み取り操作(SELECT、WHEREなど)の処理を得意としていました。しかし、データウェアハウスの構築とセットアップには、ハードウェアの購入、ソフトウェアのライセンス取得、システムの開発と保守などのコストがかかり、数百万ドル規模の取り組みとなっていました。コストを節約するために、開発者は、クレンジング、変換、集約されたデータのみをウェアハウスにロードし、効率を上げるために、分析に必要のないデータは削除していました。   

このようなデータを準備するために、企業は異なるデータベースからデータを抽出し、統一されたフォーマットに変換し、ウェアハウスにロードする前に不要な情報を削除する必要がありました。このため、次のような順序でデータを準備して処理するETL(extract、transform、load)ツールが生まれました。

  1. ソースとなるアプリケーションやデータベースから、加工されてない生のデータをステージングエリアに抽出する。
  2. データがステージングエリアにある間に、SORTやJOINなどの操作でデータを変換して集計する。
  3. データをウェアハウスにロードする。

こうしたワークフローに沿って、データがウェアハウスにロードされるまでに、ETLはデータウェアハウスが効率的に読み込めるリレーショナル形式にデータを構造化しています。

ELTとは?

ほとんどの企業では、データ統合のためにETLに依存し続けていますが、高性能なクラウドベースのデータウェアハウス(RedshiftAzureBigQuerySnowflakeなど)の台頭により、ロード前の変換の必要性が変化してきました。 

現代のクラウドデータウェアハウスは、大規模なデータセットに対する書き込み操作を効率的に管理できる処理能力を備えています。実際、クラウドデータウェアハウスはデータの処理速度が非常に速いため、多くのユースケースでETLが不要になっています。このため、最終的に新しいデータ統合戦略であるELTが誕生しました。ELTは、ETLのステージングエリアをスキップして、データの取り込みを高速化し、俊敏性を高めるものです。ELTは、準備されていない生のデータを直接ウェアハウスに送り、データウェアハウス側でロード後の変換を実行します。  

ELTツールは、以下の順序でデータを準備し、処理します。

  1. ソースとなるアプリケーションとデータベースから、加工されていない生のデータを抽出する。
  2. 加工されていないデータをウェアハウスにロードする。
  3. 必要に応じてデータウェアハウスを使用して変換処理を行う。

ELTで覚えておくべき主なポイントは、データの変換はデータウェアハウス内で行われ、ステージングサーバーの必要性を回避することができるということです。この点から、データウェアハウスの内部には生データと変換されたデータの両方が含まれています。 

ELTは、大量の生の非構造化データを収集して保存するための優れた方法を提供します。同時に、ELTは、データウェアハウスにロードする前にPHIやPII、その他の機密データを削除するオプションを提供していません。そのため、データセキュリティ、コンプライアンス、データ品質の観点から見ても完璧ではありません。簡単に言うと、スピードと柔軟性の名の下にセキュリティとコンプライアンスを犠牲にすることは、多くのビジネスにとって選択肢となりえず、そうした点から多くの企業がETLを継続して使用しているか、後ほど紹介するETLTといったハイブリッドのアプローチを選択しています。

ETL vs. ELT: それぞれの優位性とユースケース

ETLとELTの両方が異なるユースケースに適したそれらを作る特定の利点を提供し、場合によって - ETLTの次のセクションで見るように - あなたは両方のミックスを必要としています。

ETLの優位性とユースケース

ETLの優位性は以下のシナリオに適用されます。

  • データコンプライアンスとセキュリティ:SOC 2、GDPR、CCPA、HIPAAなどの業界固有のデータコンプライアンス基準に準拠しているか、独自のデータコンプライアンス基準に準拠しているかにかかわらず、データウェアハウスに移動する前に、PHI(保護された健康情報)、PII(個人を特定できる情報)、およびその他のデータを削除、マスク、または暗号化が必要な場合があります。ロード前にデータを変換するETLはこれを実現できますが、ELTはこれができません。例えば、ELTでは、データウェアハウスがロード後にデータを変換しても、SysAdminsはログ内の機密情報にアクセスできる可能性があります。このため、データのコンプライアンスが懸念される場合には、ETLがより適しています。
  • 大規模なデータセットの管理:最新のクラウドデータウェアハウスは、事実上あらゆるサイズのデータセットを扱うことができますが、このサービスに対して余分なデータウェアハウス費用を支払う必要はありません。その代わりに、ETLソリューションを使用して、パイプライン内の不要なデータや冗長なデータを削除し、データ保管コストを削減することができます。対照的に、ELTソリューションは、多くの不要なデータをデータウェアハウスにロードしてしまう可能性があります。
  • データウェアハウスの処理費用:多くのELTツールは初期費用を安くしていますが、これはあくまでもELTがデータ処理コストをデータウェアハウスにシフトしているためです。結局、ELTはデータ変換の処理コストを回避することはありません。このため、多くの企業では、データ変換を実行するためのよりコスト効率の高い方法としてETLを選択しています。例えば、Integrate.ioは、コネクタごとに一律料金を請求するETLの価格モデルを使用しており、処理に基づいて請求することはありません。そのため、組織はIntegrate.ioがロードフェーズの前にパイプライン内で変換を実行できるようにすることで、コストを節約することができます。
  • データの品質:ETLは、データ変換をバッチで管理し、データフォーマットを標準化することで、意図しないデータの破損を防ぎ、データ品質を確保します。

ELT 優位性とユースケース

ELTの優位性は以下のシナリオに適用されます。

  • スピーディなデータ取り込み:ELTでは、データがステージングサーバーを経ずに、新しいデータソースを素早く追加し、あらゆる種類の生データをすぐにインジェストすることができます。これらの利点により、ELTはリアルタイムストリーミングと迅速なデータ取り込みを必要とするユースケースに理想的です。
  • 後で必要になるかもしれないデータのインジェストと保存:従来のETLでは、特定の方法でデータを集約するため、データを捨てなければなりませんでした。しかし、ELTを使用すると、例え今は必要としなくてもあとで使えるかもしれない全てのデータをデータウェアハウス内に保存することができます。
  • 特定の分析に必要なデータだけを変換する:ELTを使用すると、保存目的でデータをウェアハウスにロードし、特定のデータのみを特定のタイプの分析をサポートするために最適な方法で変換することができます。これにより、各分析がゼロからデータを変換するため、情報を読み込んで分析するプロセスが遅くなります。しかし、特定のユースケースでは、要件の変更、あるいはデータについてより詳しく理解することで、その場でデータのビジネスロジックを簡単に変更できる柔軟性を提供します。  
  • ウェアハウスでの変換をコーディングするスキルを持った人が増えている:ウェアハウス内の変換は通常、基本的なSQLでコーディングされます。SQL の知識が普及していることで、ELT 変換のコーディングプロセスがより多くの開発者にとって利用しやすくなっています。

ETLTとは? ETLTはどのようにETLとELTの「いいとこ取り」を行うか?

ビッグデータ分析の時代にあって、ELTは非常に大きな利点を提供します。なぜなら、BIソリューションは迅速な取り込みにより、生情報や構造化されていない情報を含め、より多くのデータに素早くアクセスできるからです。また、ELTはアナリティクス戦略をその場で変更できる柔軟性をもたらします。しかし、ELTのみの戦略の限界は、データセキュリティとコンプライアンスの要件、特にデータウェアハウスに移動する前にPHIとPIIデータをマスク、削除、または暗号化する必要があるといった要件を常に満たせないことです。

国や業界のデータコンプライアンス基準、または独自のセキュリティ基準を遵守する必要があるかどうかにかかわらず、企業は分析の高速化という名のもとに、セキュリティとコンプライアンスを犠牲にすることはできないかもしれません。そこで、ETLT (extract, transform, load, transform) の必要性が出てきます。 

ETLTは、(1)データの取り込みを高速化する一方で、(2)業界のコンプライアンス基準に従ってデータの品質を確保し、機密データを保護する、データ統合に対する「両方のいいとこ取り」アプローチです。ETLTでは、以下のようなデータ統合パターンを採用しています。

  1. ソースとなるアプリケーションやデータベースから、加工されていない生のデータを抽出し、ステージングエリアにロードします。
  2. ステージングエリアにある間にデータに対して「ライトな」変換を行う(通常は、PHI、PII、またはその他の機密データを削除/マスク/暗号化するため)。最初の変換ステージは、一度に1つのデータソースにのみ適用されます。これらの変換は、各ソースを他のソースから独立して変換するため、高速でシンプルです。ロードした後まで、2 つのデータ ソースを 1 つに統合しようとすることはありません。この最初の段階の変換は、データフォーマット、データクレンジング、およびコンプライアンス目的のための機密データのマスク/削除などです。
  3. 加工されたデータをデータウェアハウスにロードします。
  4. それらのトランザクションを処理するためにデータウェアハウスを使用して、データウェアハウス内でデータをより完全に変換して統合します。この第2の変換段階では、複数のデータソースを統合し、同時に複数のソースのデータに適用されるその他の変換などを行います。

ETLTを使用すると、ロード前変換段階では軽めの変換のみを実行するため、さまざまなソースからデータをより速くインジェストすることができます。これらの軽めの変換は、セットアップと処理が迅速で、本質的なデータコンプライアンス要件を満たし、データ品質を維持することで、ELTのリスクを克服します。一方、複雑なマルチソース変換は、データウェアハウスが後で処理するために残しておくことができます。

ETLT: 優位性とユースケース

結局のところ、ETLTの最も重要なユースケースは、ロード前にコンプライアンスのためにPIIやPHIデータをマスクしたり、削除したり、暗号化したりする必要がある場合です。業界のコンプライアンス基準(または地域のデータセキュリティ法)が、ロード前の変換を必要とする場合、ETLTを使用することで、これらの要件を満たしつつ、高速なデータインジェストやビジネスロジックの柔軟性といったELTの利点を享受することができます。 

ETLTのユースケースの例としては、ロード前のデータマスキングによるデータの仮名化があります。欧州連合(EU)の一般データ保護規則(GDPR)によると、データ管理者は、データが特定の個人に結びつかないように「仮名化」を実施しなければなりません。仮名化の最も重要な側面の1つは、データマスキングを使用して、ロード先となるデータウェアハウスにデータをロードする前に、任意のPIIまたはPHIデータを再編集または暗号化することです。ETLTを使うことで、ロード前の変換をデータウェアハウスに到着する前にPII/PHIデータを暗号化または削除するシンプルなデータマスキング操作に制限することができます。その後、必要に応じてデータウェアハウス内でより複雑な変換を実行することができます。 

ETLTを使用して、コンプライアンスの目的でこのような単純なロード前の変換を実行し、その後、より複雑な変換を後回しにすると、以下のような利点があります。 

  • データセキュリティとコンプライアンスの要件を満たす
  • 顧客の信頼を促進する
  • プライバシー侵害のリスクを制限する 
  • データ取り込みの高速化
  • さまざまなタイプの分析に合わせてロード後の変換を簡単に変更できるため、データの変換方法に柔軟性をもたらす

ETLT と Integrate.io

Integrate.ioは、強力なエンタープライズグレードのETL、ELT、ETLTをサービスとして提供するプラットフォームで、技術経験の有無に関わらず、誰でも簡単に高度なデータ統合プロセスを作成し、自動化することができます。Integrate.ioのパワフルなデータエンジンを使えば、必要に応じてETLまたはELTモデルにてパイプラインを構築することができます。また、パイプライン内で簡単なデータ準備を行い、ロード後にデータウェアハウスがよりニュアンスのあるSQLベースの変換を実行するように指示することで、ETLTモデルに従って構築することもできます。 

ロード前の変換でもロード後の変換でも、ETLTTを使用して両方をミックスしても、Integrate.ioはデータ統合を簡単にしてくれます。Integrate.ioをお試しになりたい方は、ぜひオンラインデモに申し込みください。