ETLは時代遅れ？

ETLは、エンタープライズデータベース構造の基礎となる技術です。それは毎日何百万もの企業で利用されています。しかし、だからといって「ETLは死んだ技術なのでは？」という問いが人々から消えることはありません。

この理由は、より柔軟性の高いビッグデータツールの普及に起因しています。ETLはデータウェアハウス・テクノロジーの代名詞ですが、一部の業界関係者には、加工されていない非構造化データを扱うデータレイクのような、より柔軟性の高いモデルが好まれています。

では、ETLはもはや時代遅れなのでしょうか？企業はデータウェアハウスの利用を辞めることができるのでしょうか？

そんなことはありません。

この投稿では、ETLがこれまで以上に重要である理由と、ETLが何をできるかを説明します。

ETLとは?

馴染みのない方のために、ETLはExtract,Transform,Loadの略です。これは、3つのシンプルなステップでデータウェアハウスに情報を充填するために使用されるソフトウェアプロセスです。

抽出：このプロセスでは、複数のソースからデータを取り出します。
変換： 入ってきたデータは変換レイヤーを通過します。
ロード：ETLプロセスは、データを目的地に向けてプッシュします。

現代のETLの基礎は、1960年代にさかのぼるデータウェアハウスの方法論から来ています。ETLは、本番システムからデータを収集するプロセスです。一度収集されたデータは、ビジネス用語やエンティティに適合した、より読みやすく、理解しやすい形式に変換されます。変換されてきれいになったデータは、その後、何らかのデータリポジトリ（通常はリレーショナルデータベース）にロードされます。

データアーキテクチャの世界では、リレーショナルデータベースとデータウェアハウスの出現以来、基本的には過去40年間ほぼこのように機能していました：データはETLプロセスによって変換され、データウェアハウスに移動して消費されます。

なぜ "ETLは死んだ？"と考えてしまうのか？

テクノロジーには "直近効果"（人がしばらく前に起こったことに比べて、最近起こったことのほうが思い出しやすい心理的現象）ありますそれは、「システムや方法が上手く機能しているのであれば、それを変える必要はない」という哲学とは逆の考え方です。何かしらのテクノロジーが身近で確立されていると、私たちは自動的にそれが破壊の次のステップだと思い込んでしまいます。40歳の技術ということで、まるでETLが時代遅れであるかのよう話す人々の最たる理由がそれによるものだと言えます。

真実は、ETLは繁栄しているということです。しかし、ETLのアプローチには、完全な代替品ではないものの、特定のニーズに対応できる、いくつかの代替品もあります。

ストレージ

Hadoopのようなビッグデータに適したファイルシステムでは、かなり安価なストレージプラットフォームに大量のデータを保存することができます。このアプローチには間違いなくメリットがあります。HadoopやSparkなどのシステムはスケールアップが容易なので、大規模なデータリポジトリに最適です。構造化されたデータと非構造化されたデータを並べて保存できるのも非常に便利です。

Hadoopのようなシステムの欠点は、非効率であることです。それだけでなく、設計上非効率的です。Hadoopは非常に安価なハードウェアで動作しているため、クラスタのいずれかが故障した場合に備えて、多くのの冗長性を持っています。データレイクの非効率性が、データ変換の節約分を相殺するという考え方です。

変化するビジネス要件

データに関する企業の要件は常に進化しています。本番用データベースからデータウェアハウスに直行する静的で柔軟性のないパイプラインを構築することはできません。顧客は日々変化しています。世界は日々変化しています。つまり、私たちのデータニーズも日々変化しているということです。

データレイクのアプローチでは、そうしたことについて今すぐに考える必要はないということを意味します。いずれは考えなければならないでしょう。しかしETLでは、データを動かし始める前に要件を検討することが強制的に求められます。

データモデリング

リレーショナルデータベースには、すべてのデータを保持する構造であるスキーマがあります。ETLの魔法は、あるスキーマから別のスキーマにデータを変換することです。これは、1つのフォーマットに統合したい多くのソースデータベースがある場合に便利です。ただ一つだけ問題があります：データをモデル化できなければなりません。データの量が大きく複雑になればなるほど、適切なデータモデリングを行うことは難しくなります。

そのため、データレイクにすべてをダンプして後で整理した方が簡単な場合があります。こういったケースはETLのスキーマ・オン・ライトとは対照的に、スキーマ・オン・リードと呼ばれることが多いです。

ETLは死んだのか? > 答えはNoです

特に古いETLツールを使用している場合は、"ETLは死んだ？"と聞きたくなるかもしれません。

Integrate.ioのような現代のETLプラットフォームは、そうした古い祖先のようなものではありません。それはデジタル成功の強力なエンジンであり、豊富な統合ライブラリとAIを搭載したインターフェースでデータパイプラインを強力にしています。主な機能のいくつかを見てみましょう。

より効率的なストレージ利用

データレイクは安いですが、無料ではありません。ろ過せずにそこに物を捨ててしまうと、最終的にはデータ沼として知られている状態になってしまいます。

データ沼には、何の価値もない停滞したデータが大量に溜まっていますが、それでもホスティングコストを払わなければなりません。データ沼では、ゴミの中から有用なデータを選別するのはほとんど不可能です。長期的には、パフォーマンスに影響を与える可能性があります。

ETLモデルでは、はるかに効率的な長期保管が可能です。データウェアハウス内のすべてのデータは、クリーンで信頼性が高く、ビジネスに関連しています。さらに重要なのは、必要なときにいつでも利用できることです。

早く正確な分析

データ分析はビッグデータのキラーアプリです。アナリティクスから得られるインサイトは、顧客の獲得、非効率性の特定、さらには潜在的に有利な新しいマーケットの特定に役立ちます。

しかし、すべてのことに言えることですが、いくつかのトレードオフがあります。データレイクを使用すると、膨大な量のデータに対して分析を実行することができますが、これらはすべてMapReduceなどの何らかのソートプロセスを通さなければなりません。大規模化すると、これには多大なリソースコストがかかります。

データウェアハウスは、BIやアナリティクスを可能な限り高速かつ正確に行うことを保証します。アナリストはETLのおかげで、クレンジングとソート済みのデータを使い作業しています。

次世代の変換機能

ETLの概念は40年前のものかもしれませんが、今日のETLツールは最先端を走っています。私たちは今、最も複雑な変換でも数回のクリックで済むノーコード/ローコードETLの時代に生きています。

この技術は、企業がデータと同じスピードで適応し、進化できることを意味します。さらに重要なことは、ETL構成がプログラマーやSQLオタクだけのものではないということです。他のビジネス・ユーザーが参画し、データ・パイプラインが完全に最適化されていることを確認することができます。

ETLツールを使用することで、複雑でよりダイナミックなパイプラインを構築することもできます。あらゆる可能性のあるデータソースをカバーするルールや例外を作成することができるので、手動での介入を必要とせず、すべてをスムーズに実行し続けることができます。

プライバシー、セキュリティ、コンプライアンス

データは単なる1と0の山ではありません。データは現実世界の実体を表しており、その多くは財務記録や従業員のファイルなど、非常に機密性の高いものです。最も重要なことは、データは企業がもつ顧客を表現しており、顧客はデータが安全に保たれていると企業を信頼しています。

ETLは、重要なデータのための安全なポイントからポイントへのパイプラインを提供します。自動化されたETLプラットフォームは、第３者にさらされることなく、ネットワークを介してデータを移動させます。他のプロセスでは、メタデータを含む暗号化されていない管理ログの作成など、いくつかの方法でデータを公開することができます。

ETLの変換レイヤは、データ難読化などの重要なコンプライアンスタスクを実行することもできます。これは本質的には、データベース内の機密情報を隠して、それが目的地に到着した際に公開されないようにすることを意味します。難読化は、テストデータベースを作成したり、分析目的でデータをエクスポートしたりするときに便利です。

ユースケース

今日のETLの重要性を示すために、最新のETLプラットフォームのユースケースのサンプルを見てみましょう。

ETL Use Case #1: 顧客データの統合

ABC株式会社は、顧客との関係性が非常に良好です。マーケティングチームは、リードを獲得するためにマーケティングオートメーションツールを使用しています。営業担当者は、ターゲットを絞ったオファーを提供するためにツールを使用しています。フルフィルメントチームは、注文を迅速に出荷するためにERPに頼っています。顧客が問い合わせの電話をかけてきた場合、電話口ではCRMで顧客の詳細を調べます。顧客はいつでもウェブサイトにログインし、住所や電話番号を変更することができます。

しかし、ABC Ltd.は課題に直面しています：彼らのプロセスは、それぞれが一意の顧客レコードを持つ6つの異なるデータベースを結果的に生み出しました。これらのシステム間に不一致があった場合はどうなるのでしょうか？誰かがどのようにして特定の顧客に関する会社のすべてのデータを取得するのでしょう？

ETLは、こうしば場面においてエレガントなソリューションです。ETLプラットフォームは、6つのソースすべてに接続し、顧客データをインポートします。変換は、マスターデータに従ってこのデータを修正し、ビジネスルールに従って重複や不整合を解決します。最後に、ETLは決定的な顧客レコードをデータウェアハウスなどの適切な場所に送信します。

ETL Use Case #2: 災害復旧のためのバックアップ

LMNCorp は、災害復旧計画の一環として、すべてのミッションクリティカルなシステムの定期的なバックアップを必要としています。システムはそれぞれ異なるペースで動いています。

LMNCorpは、バッチファイルやCronジョブ、手動バックアップに頼るのではなく、堅牢でインテリジェントな自動化されたバックアップシステムを望んでいます。また、バックアップデータをクラウドサーバーに保存したいと考えています。

ETLは、最も重要な本番データベースのすべてに接続し、動的なスケジュールに従ってバックアップを実行することができます。LMNCorpは、必要に応じてスナップショットを取得できるように、バックアップデータの変換を最小限にする方法を選択するかもしれません。また、復旧プロセスを高速化するために不要なデータを削除することもできます。

ETL Use Case #3: ビジネスインテリジェンス・ダッシュボード

XYZ Inc.は新製品を発売しています。同社には、製品の成功を測定するのに役立つデータ豊富なシステムが数多くあります。これらのシステムには、販売システム、顧客とのインタラクションを記録するCRM、ウェブサイト分析、オンライン調査ツール、ソーシャルメディアのセンチメント分析ツールなどがあります。

これらのツールはそれぞれ、洞察力のあるレポートを作成しますが、それぞれのレポートは個別に実行されます。さらに、これらのレポートは標準化されたフォーマットではありません。アナリストは、異なるレポートを見ているときに、比較しても意味のないものを比較してしまうことがよくあります。

ETLは、データを単一のソースに統合することで、この問題を解決します。このソースは、複雑で多次元のクエリを実行できるBIツールで利用できます。結果は、XYZ Inc.が自社のビジネスについて知る必要のあるすべてのことが表現された単一のダッシュボードで利用できます。

ETLの未来

ETLは40年間進化し続けており、それが止まる気配はありません。今日のETLは、クラウドベースで自動化され、ビジネスのニーズに合わせて整備されています。今後のトレンドは、ビッグデータの新時代にETLを存続させるのに役立ちます。これらのトレンドには次のようなものがあります。

リアルタイムストリーミングETL：ETLは、多くの場合、1時間ごとや1日ごとなど、一定の間隔で実行されるバッチプロセスに依存しています。リアルタイムストリーミングETLは、データをライブで送信する応答性の高いプロセスです。そのため、ターゲットシステムが更新されると、ETLプロセスはそれを送信先のサーバーにストリーミングします。これにより、より正確なアナリティクスが可能になり、よりタイトなシステム統合が可能になります。
ETLT：ETLかELTか？なぜ両方ではないのか？ETLTは、両方の戦略を4つのステップに組み合わせたものです：抽出、基本的な変換、ロード、そしてより詳細な変換です。ETLTプロセスは、重要なものに優先順位をつけることがすべてなので、最初に最も重要な変換を行い、その後、データを利用可能な状態にします。その後、長期保存が必要な最終的なデータ整備を追加の変換プロセスで行うことができます。
データレイクハウス：ここまで、データレイクとデータウェアハウスの違いについて多くの話をしてきました。データレイクハウスは2つのいいとこ取りのアプローチです。リポジトリはデータレイクですが、統合されたデータを保持する仮想ウェアハウス構造をサポートしています。これらはすべてAIおよび複数の同時並行ETLプロセスに依存しています。

ETL with Integrate.io

「ETLは死んだのか？」は完全に間違った質問です。あなたが本当に聞くべきことは、「ETLは私のために何ができるのか？」

もっと正確に言うと、「Integrate.ioは、私のために何ができるのか？」です。

ETLは単なる概念に過ぎません。Integrate.ioは現在のマーケットで最も洗練されたソリューションです。大規模な統合ライブラリ、ノーコードとローコードの構成、そして最高のBIツールのサポートにより、Integrate.ioはETLのための全く新しい製品です。ご自身の目で確かめたい方は、オンラインデモをご予約ください。

ETL

ETLは時代遅れ？

ETLとは?