ビッグデータの世界では、あらゆるビジネスが理解すべき多くの専門用語が飛び交っていますが、こういった用語の多くは互いに混同されやすく、データレイクデータウェアハウスがまさにその例です。データレイクとデータウェアハウスの決定的な違いは何でしょうか。また、データ分析やデータ管理を最も効果的に活用する方法は何でしょうか。ここでは、データレイクとデータウェアハウスの違いについてご説明します。

データレイクとデータウェアハウスの主な違いを7つ:

  • データレイクは「スキーマオンリード」、データウェアハウスは「スキーマオンライト」でのアクセス
  • データレイクは「あらゆる種類のデータ」を保存、データウェアハウスは「構造化されたデータ」を保存
  • データレイクはストレージとコンピュートを「分離」、オンプレミスのデータウェアハウスは、ストレージとコンピュートが緊密に「連携」
  • データレイクは一般的な「アドホッククエリ」向け、データウェアハウスはすぐに使える「結果」の提供向
  • データレイクは大量のデータを「長期間保存」できるが、データウェアハウスのストレージが高価なため、データは「短期間保存」
  • データレイクは「抽出、格納、必要に応じて変換(ELT)」、データウェアハウスは「抽出、変換、格納(ETL)」
  • データレイクは柔軟で「変更が容易」であることに対し、データウェアハウスは高度に構造化されているため「変更や拡張が困難」な場合がある

目次

データレイクとデータウェアハウスの比較

データレイクとデータウェアハウスのアクセスの比較

データウェアハウスは、構造化され、統合されたデータを企業が保存するためのレポジトリであり、そのデータは、重要なビジネス上の意思決定をサポートするBI(ビジネス・インテリジェンス)に使用されます。データレイクもデータレポジトリの1つですが、構造化・非構造化両方の形式でさまざまなソースからデータを保存するのに使われます。

データレイクとデータウェアハウスは別物といえども、以下のように共通点がいくつかあります。

  • データ保管のためのレポジトリ
  • クラウド型でもオンプレミス型でも可能
  • 驚異的なデータ処理能力

スキーマオンリードとスキーマオンライトのアクセスの比較

スキーマとは、特定のデータベースのDBMS(データベース管理システム)によって規定された正式な言語を作成する一連の定義のことです。記述、テーブル、IDなどが、ウェブやデータベース上で多くのユーザーにわかりやすく検索しやすい共通言語を使用することを保証し、データにある程度の組織性と構造性をもたらします。

データレイクは、スキーマを適用する作業を、データが必要になったときのために保存しておきます。つまり、ユーザーがデータを閲覧する際に、スキーマを適用することができるのです。専門家はこのプロセスをスキーマオンリードと呼んでおり、このプロセスは、非常に手間のかかるスキーマをそれぞれ前もって定義するのではなく、ユーザーがデータが必要な時にスキーマを定義すればよいので、定期的に複数の新しいデータソースの追加が必要なビジネスで極めて有効です。

一方で、これは多くのデータウェアハウスとは対照的です。ユーザーは代わりにスキーマオンライトを適用しますが、それはデータを見るプロセスの最後ではなく、最初に時間と労力が必要とされ、データがウェアハウスに格納される直前にスキーマが定義されるのです。スキーマオンライトは、スキーマに準拠できない特定のデータを使用できない場合があり、ビジネスで大量の反復的なデータを処理しなければならない場合に適しています。

これは、データレイクとデータウェアハウスの2つ目の違いに直結しています。

すべてのデータ型と構造化データの比較

データレイクは、様々なソースから構造化されたデータだけでなく、非構造化されたデータも受け取るため、このように呼ばれています。倉庫のように整理されたパッケージがあるのではなく、湖のように様々なソースから水を受け取り、様々なレベルの整理やきれいさがあるのです。

ユーザーはスキーマオンリードでデータにアクセスするため、データレイクに入った時点では非構造化データとなっています。データには多くのテキストが含まれていますが、価値のある情報はほとんど、あるいは全く含まれていないかもしれないため、多くのユーザーは構造化される前のデータを理解しにくいかもしれません。一方、データウェアハウスは構造化されたデータのみを扱い、直接的な質問に答えないデータや特定のレポートを扱わないデータはほとんど除外されます。つまり、CEO、マーケティングチーム、BI専門家、データアナリストなど、すべての人が整理されたデータを閲覧し、活用することができるのです。

分離か密結合か:ストレージとコンピューティング

データレイクは、ストレージと通信を切り離すことを特徴とする傾向がありますが、クラウドに基づくデータウェアハウスにも、この重要な機能が備わっている場合があります。ストレージとコンピューティングを切り離すことで、両者は互いに独立して拡張できます。データレイクでは、処理されることのないデータが相当量保存されている可能性があるため、これは重要なポイントです。そのため、コンピューティングの増強はコストがかかる上に不要である場合が多いのです。

オンプレミスのデータウェアハウスでは、一方がスケールアップするともう一方もスケールアップしなければならないというふうに、ストレージとコンピューティングが緊密に連携しています。一般的に、ストレージを拡張する方が、ストレージとコンピュート両方を同時に拡張するよりもはるかに安いため、これはコスト増につながりますが、それは同時に、特にトランザクション・システムにおいて多くの場面で不可欠な、より高速な機能を意味することもあるのです。

一般的なデータと即座に使えるデータ

データレイクにはあらゆる種類の非構造化データが含まれるため、提供される結果は一般的で、ビジネスプロセスにすぐに適用できないことがよくあります。その結果、データサイエンティストやその他のデータ専門家は、データレイクを分類するのに多大な時間を費やして価値のある情報を見つけなければならなくなります。ちなみにこの一般的なデータは、分析実験に使用することができ、予測分析に役立ちます。

データウェアハウスから得られる結果は、すぐに利用可能で、より理解しやすくなっています。ダッシュボードをはじめとする、整理・分類されたデータの閲覧方法によって、ユーザーは簡単に結果を分析し、重要なビジネス上の意思決定にすぐに使えます。

長いデータ保持時間と短いデータ保持時間

ユーザーはデータをデータレイクに長期間保存することができ、企業はそれを何度も参照することができます。一部のデータはアーカイブされますが、データウェアハウスのように一般に削除されることはなく、特定の種類のデータの保持に関する法的要件に応じて、短期間から10年間保持される場合があります。これは、様々な異なる目的または長期間にわたって同じデータを参照する必要がある研究ベースまたは科学的産業において、特に重要であると考えられます。

通常、企業はデータウェアハウスに非常に限られた期間のみデータを保管し、その時点でユーザーはデータレイクなどの別のレポジトリにデータを移すか、破棄することができます。

ELTかETLか

データレイクはELT(抽出、格納、変換)、データウェアハウスはETL(抽出、変換、格納)を使用します。ELTとETLはどちらも重要なデータ処理ですが、処理の順番によっていくつかの点が変わってきます。

ETLは、生データをソースからステージング、目的地まで持っていき、データはバッチ処理される傾向があります。

一方、ELTはソースから目的地まで、多くの場合、連続した、ほぼリアルタイムまたはリアルタイムのストリームで進みます。ここで言う目的地とは、ユーザーが変換を適用する場所のことです。

変換には一定のセキュリティ対策が施され、必要に応じて暗号化されるため、ETLはより安全なデータ管理方法となる傾向があります。これは、一般的にデータレイクよりもデータウェアハウスの方がデータの安全性が高いことになり、ヘルスケアなどの機密性の高い業界では不可欠となる場合がありますが、ELTはビジネスプロセスをほぼリアルタイムで把握することができるため、最高の俊敏性が実現されます。

データガバナンス

データレイクはELTを使用しているため、これらのデータ管理システムは、データを例えばAthenaのようなサードパーティのプラットフォームに格納してから、そのデータを分析用に準拠した形式に変換しています。そのため、GDPRやHIPAAなどのデータガバナンスの原則を遵守する際に、データの妥当性について疑問が生じる可能性があります。一方、データウェアハウスは、外部システムに格納する前にデータを変換するため、企業のコンプライアンスを向上させることができます。

変更と拡張が容易なものと困難なもの

データレイクは、データウェアハウスに比べて構造化されていないため、より俊敏で柔軟性があります。デベロッパーやデータサイエンティストは、データレイクをより簡単に変更したり再構成したりすることができ、データソースやデータ量が常に変化している場合、これは不可欠な要素です。

データウェアハウスは、高度に構造化されたデータ保管庫を提供するため、データの変更が容易ではありません。そうすると、大幅に構造を変更するには多くの時間と労力が必要になるため、反復処理やデータパイプラインの構築に適していることになります。

多くの著名なデータソフトウェアプロバイダーは、データレイクとデータウェアハウスに対して優れた最先端技術を提供しています。

人気のデータレイク

Athena

Amazon Athenaは、理想的なデータレイクソリューションとしてAmazon S3と連携しています。Athenaは、サーバーレスベースでデータレイクからクエリを実行し、データを分析する機能を提供しており、ユーザーは、標準的なSQLを使用して、ETLなしですぐにクエリを始めることができます。

Prestoをベースに構築されたAthenaは、大規模なデータセットを扱う場合でも、優れたパフォーマンスと適度な速度を発揮します。機械学習アルゴリズムにより、通常は膨大なタスクを簡略化することができるため、データを扱うビジネスには最適な選択肢となります。

Microsoft Azure Data Lake

マイクロソフトは、Azure Blob Storage上に構築されたデータレイクソリューションを開発しました。このクラウドデータレイクは、拡張性が高く、膨大なストレージ機能を備えています。Azureには高度なセキュリティ対策が施されており、その1つが可能性のある脆弱性の追跡です。 さらに、Visual StudioやEclipseとの深い統合により、デベロッパーに特別なサポートをします。これにより、デベロッパーはAzureで作業している間、使い慣れたツールを使用することができます。

人気のデータウェアハウス

Redshift

Amazon Redshiftは、包括的なデータウェアハウスソリューションです。Lyft、Yelp、製薬大手Pfizerなどの企業をはじめ、1万を超えるさまざまな顧客が利用しています。

Amazon Redshiftは、徐々に維持できるマテリアライズド・ビューを提供しており、高度な機械学習アルゴリズムと、ほぼ無制限の数のクエリを同時に実行できる機能を備えています。自動バックアップの実行とネイティブな空間データ処理により、Redshiftは他の類似ソリューションをほとんど上回り、企業に安全なデータウェアハウスの提供を可能にしています。

PostgreSQL

PostgreSQLは、一般的にPostgresとして知られています。Postgresは、オープンソースのソリューションとして提供されるリレーショナルデータベース管理システム(RDBMS)であり、低コストのデータウェアハウスソリューションとしても機能します。クリエイターが、デベロッパーのアプリケーション構築をサポートし、企業のデータ保護に貢献することに重点を置きました。

Postgresは、デベロッパーがデータベースを再コンパイルすることなく、異なるコーディング言語でコードを作ることを可能にするユニークな機能を備えています。

Integrate.ioのサポート

Integrate.ioは、さまざまなソースから複数のデータレイクやデータウェアハウスにデータを移動させることができるデータ統合ソリューションです。このプラットフォームは、ETL、ELT、リバースETL、CDC、API管理など様々な手法でデータを統合するため、データの新しい目的地への移動や、データを分析用に正しい形式に変換したり、APIを管理したり、データベースのデータの変更の追跡、複雑なコードを扱う必要がありません。その結果、 ストレスなくデータ統合を改善することができます。

Integrate.ioは、ごく一般的なデータレイクやデータウェアハウス用のコネクタをすぐに利用でき、データ統合戦略の変革をサポートします。さらに、ライブチャットサポート、優れたドキュメント、価格モデル(消費するデータ量ではなく、使用する統合の数に応じて課金される)などをご用意致しております。

Integrate.ioに関するご相談、14日間無料トライアルのお申し込みはこちらのリンクよりお願い致します!