データウェアハウスは、多様なデータソースからの情報を集約、保存、処理して、ビジネスインテリジェンスシステムで利用できるようにしてくれます(単一で統合されたものへクエリを実行できるようにします)。データウェアハウスがあれば、ユーザーは企業のすべての情報をまとめて分析することができ、あるいは異なるレベルの情報に焦点を当てて、最も正確なビジネスインサイトと予測モデルを導き出すことができます。

データウェアハウスの問題は、最近、データと分析に携わる多くの人々の頭の中にありますが、それには当然理由があります。AIと機械学習のインサイトを利用できるのは、Google、Amazon、Facebook、Microsoftなどの大規模なテック企業だけでした。今日では、誰でもデータウェアハウスをセットアップして、価値ある機械学習のインサイトを手頃な価格で手に入れることができます。

最初に

データウェアハウス(およびそれに関わるすべてのプロセスとテクノロジー)は、壮大ではありますが重要なテーマです。このガイドでは、データウェアハウスのトピックと「データウェアハウスとは何か?」について解説します。

  1. データウェアハウスの一例

  2. データウェアハウスとビジネスインテリジェンス

  3. モダン・データウェアハウス・テクノロジー

データウェアハウスの一例

あなたが会社の全部門のために、次年度に発注するワークステーションの数(および必要なコンポーネントの数)を決定しなければならない場面を想像してください。このような決定には、以下のデータを俯瞰的に見る必要があります。

  • 各部門の従業員数
  • 従業員が使用しているワークステーションとそれに含まれているもの(モニター、マウス、キーボード、机、椅子など)。
  • 各社員の役割
  • さまざまな役割の従業員が責任を果たすために必要な技術/機器
  • 完全なワークステーションに必要なさまざまなコンポーネントの価格
  • 大規模な機器の購入で利用可能な潜在的なバルクレート割引
  • 機器を提供するさまざまなベンダー
  • 機器の消耗率
  • 従業員の離職率
  • 従業員の拡大または縮小の予測
  • 現在の予算の制限、ガイドライン、および目標

データウェアハウスがあれば、さまざまなソースからこれらの情報をすべて集めようとするのではなく、1つの場所ですぐに利用できるので、分析してわかりやすいレポート形式に整理することができます。これを実現する最も一般的なデータウェアハウス・プラットフォームには、以下のようなものがあります。

Related Reading: データウェアハウスの本当のコストとは?

もちろん、これらのインサイトを導き出すためには、ビジネスインテリジェンス・プラットフォームとデータウェアハウスを組み合わせる必要があります。

Enjoying This Article?

Receive great content weekly with the Xplenty Newsletter!

データウェアハウスとビジネスインテリジェンス

「データウェアハウスとは何か」という問いに対しては、「ビジネスインテリジェンス・プラットフォーム」という言葉も重要です。ビジネスインテリジェンス(BI)プラットフォームは、データウェアハウス内の集約されたデータにアクセスしてクエリや分析を行い、利益を高めるインサイトを作り出します。 従業員用ワークステーションを何台購入するかを決定する例では、BIプラットフォームは、購入すべき従業員用ワークステーションの数を取り巻くすべての情報を、驚くほどわかりやすい視覚的なメトリクスで提示し、意思決定プロセスをサポートしてくれます。

現在、データウェアハウスやBIソリューションは、(1)BIのインサイトが企業に競争優位性を与え、(2)利用する企業が増えている、といった理由で、これまで以上に必要不可欠なものとなっています。これらの先進的なデータソリューションを導入できない企業は、深刻な状況に陥ることになります。

以下のiMPACTのグラフィックは、いかに多くの企業がビジネスインテリジェンスにリソースを割いているかを示しています。これらの図は、ビジネスインテリジェンスを「CI」(competitive intelligence)と呼んでいることに注意してください。

最初の画像は、企業規模別にビジネスインテリジェンスに従事する従業員数を示しています。

undefined

次の画像は、年間契約金額別のビジネスインテリジェンス専任社員数の推移です。

undefined

*Image source: iMPACT. These graphics refer to business intelligence as "CI" (competitive intelligence).

データウェアハウスとBIソリューション

BIプラットフォームは、複雑なSQLクエリ、AIツール、機械学習アルゴリズムを使ってデータを分析します。最も人気のあるビジネスインテリジェンスプラットフォームには、以下のようなものがあります。

  • Looker
  • InsightSquared
  • Amazon QuickSight
  • Sisense
  • Tableau
  • Chartio
  • Periscope Data(現Sisense)

データウェアハウスとBIソリューションへの投資は、特にデータ戦略において次に紹介するテクノロジーが含まれている場合には、今後ビジネスの競争力を維持するのに役立ちます。

Enjoying This Article?

Receive great content weekly with the Xplenty Newsletter!

モダン・データウェアハウス・テクノロジー

データウェアハウスとBIソリューションについて理解が深まったところで、データ戦略を立案する際に注目すべき最新のテクノロジーを見てみましょう。

1) クラウドベースのデータウェアハウス

過去には、データウェアハウスは、物理的な、オンサイトのサーバーを必要としていました。最近では、企業はすでに情報システムをクラウドベースのデータウェアハウスに移行しているか、検討しています。例えば、ニールセンは最近、同社の全国テレビ視聴者測定サービスの処理をオンサイトサーバーからAmazon Web Services(AWS)のクラウドベースのエコシステムに移行しました。

ニールソンの製品・テレビ・オーディオ部門の責任者であるスコット・N・ブラウン氏は、クラウドベースのシステムへの移行が重要である理由を次のように説明しています。

"クラウドベースのエンジンへの移行は重要な取り組みであり、お客様と業界全体に利益をもたらすテクノロジーへの投資を行うニールセンのコミットメントを表しています。クラウドでの処理は、新製品の開発や既存製品の強化を行う際に、より大きな柔軟性とスピードを可能にします。また、インフラストラクチャの管理に費やす時間を減らし、より多くの時間をイノベーションに費やすことができるようになります。

クラウドベースのデータウェアハウスのメリットは明確です。

  • スタートアップコストがゼロ:これまでは、物理的なオンサイトサーバーのハードウェアを購入して設置するには非常に高額な費用がかかりました。クラウド型データウェアハウスでは、クラウドベースのサーバーを立ち上げる際にハードウェアに投資する必要はありません。インターネット経由で必要なサーバー構成を選択し、サーバーを起動するだけで、準備は完了です。高価な機器を購入する代わりに、SaaS(Software as a Service)の料金を使った従量課金で支払うことになります。
  • ほぼすぐに導入:データウェアハウスでは、以前は適切な機器を購入するために、手間のかかる準備が必要でした。しかし、クラウドベースのデータウェアハウスでは、ニーズを正しく見積もっていなければ、サーバー構成を調整することでソリューションをアップグレードすることができます。これにより、データソリューションを立ち上げる前の煩雑な準備が不要になります。
  • スケーラビリティとコスト柔軟性:クラウドベースのデータウェアハウスのもう一つの経済的なメリットは、必要な分だけ支払うということです。例えば、夏の間に多くの複雑なクエリを実行する必要があるとしましょう。それ以外の時期は、データのニーズが少ないため、コストはそれほど高くなりません。これは、データソリューションが必要に応じてスケールアップしたり、スケールダウンしたりできるため、コストの柔軟性につながります。
  • より速く、より良いインサイト: これまで企業は、アップグレードに投資する準備が金銭的にできていなかったため、サーバーハードウェアの不調とストレージの制限に苦しんでいました。クラウドベースのソリューションの柔軟性により、「遅いクエリ症候群」の脅威から解放され、より速く、より優れた BI インサイトを提供することができ流ようになりました。
  • サーバーのメンテナンスコストを削減:クラウドベースのデータウェアハウスを利用しているユーザーは、自動化されたパッチ、アップグレード、セキュリティ更新の恩恵を受けることができます。また、社内の技術チームが必要としていた作業の多くを自動化してくれます。これにより、サーバーのメンテナンスコストが削減され、技術チームや開発者は解放され、より重要な問題について集中することができます。

2019年に最も人気のあるクラウドベースのデータウェアハウスには、RedshiftSnowflakeIncortaIncortaなどがあります。また、IBMMicrosoft AzureTeradataOracleなど、最も人気のあるオンサイトのデータウェアハウスソリューションも、クラウドとオンサイトの機能をミックスしたハイブリッドプラットフォームを開発しています。

Related Reading:

2) 自動化されたETLツール

以前は、互換性のないデータフォーマットをデータウェアハウスに統合するには、時間とコストのかかるハンドコード化されたプログラミングが必要でした。最近では、Xplentyのような自動化されたETL(交換、変換、ロード)ツールが、多様なタイプの構造化されたデータや非構造化されたデータをデータウェアハウスやBIソリューションに統合するのに役立ちます。

構造化データ vs. 非構造化データ

構造化データ

技術的には、データウェアハウスは、定義されたスキーマを持つデータ、すなわち、検索やクエリの実行が可能な方法で整理された構造化されたデータのみを組み込むことができます。構造化データには、Oracle RDBMS、IBM DB2、Microsoft SQL Server、Teradata、MySQL、ADABAS、Microsoft Accessなどのリレーショナル・データベース・システム(RDBMS)で見られる情報が含まれています。このデータは、会計ソフト、給与記録、広告、倉庫保管、流通、フルフィルメントなどに関連しています。

データウェアハウスはほとんどの形式の構造化データを扱うことができますが、データウェアハウスの他の部分と統合する前に、XplentyのようなETL(抽出、変換、ロード)ソリューションでデータを互換性のある形式に変換しなければならない場合があるかもしれません。Xplentyが提供する多くのビルトイン構造化データ統合をここで見ることができます。

非構造化データ

データウェアハウスが構造化データしか扱えないとしても、世の中の情報のほとんどは非構造化データに分類され、即ちそれは、定義された構造やスキーマが欠如していることを意味します。Journal of Accountancyでは、非構造化データの例を見ることが可能です。

注目すべきは、この情報の中には電子メールのような半構造化されたものもあるということです。電子メールは、構造化されていないテキストコンテンツ(データの大部分)を含む緩い構造を持っていますが、送信者、受信者、タイムスタンプのような構造化された検索可能な情報も含まれています。

非構造化データの量は年々増加しています。一部の専門家によると、2025年頃には世界のデータの80%が非構造化データになると言われています。そのため、非構造化データを取り入れる必要性はこれまで以上に重要であり、データウェアハウスと組み合わせて利用する企業は、より優れた、より競争力のあるインサイトを導き出すことができるでしょう。

自動化されたETLツールは、どのようにしてあらゆるタイプのデータを統合するのに役立つか?

Xplentyのような自動化されたETLツールのメリットは以下の通りです。

  • 迅速かつ簡単な接続:手動でのコード化された統合では、特定のデータソースとデータウェアハウス間の信頼性の高いデータ接続を確立するのに数ヶ月かかる場合があります。接続が構築された後にこれらの接続を維持することは、より時間のかかる課題となります。しかし、Xplentyのようなクラウドベースのデータ統合サービスには、Salesforce、Facebook、Googleサービス、Excel、MySQLなどのサービスからの貴重なデータを即座に接続するためのコネクターとアダプターがあらかじめ用意されています。
  • より多くのデータへのアクセス:これまで互換性のなかったデータを統合することで、データウェアハウスとBIツールでより多くの情報を開放し、より良いビジネス上の意思決定をサポートするためのより正確なレポートを作成することができます。
  • リアルタイムの可用性:必要なBIインサイトをより早く入手すればするほど、意思決定者はその組織をリードすることができます。競合他社がリアルタイムのレポーティングシステムを採用している場合、1日に1回、2回のインサイトやレポートを受け取るだけでは、競争力を維持することはできません。このようなリアルタイムレポートを実現するには、信頼性の高いデータ統合が最適です。
  • データの品質と整合性の向上:データ統合戦略は、様々な情報をデータウェアハウスに統合する際に、データの品質とデータの整合性を維持するのに役立ちます。これにより、より正確な洞察を提供するBIソリューションをサポートします。 

3) データレイク

データには、ETLソリューションでリレーショナル構造を適用できない、もしくは、まだリレーショナル構造を適用していないタイプがいくつかあります。このような非構造化データは、BI ツールが非構造化データから貴重なインサイトを抽出できる可能性があるので、貴重なものになる可能性があります。例えば、特定の単語やフレーズを検索することで、大量の非構造化テキストをクエリすることができます。

構造化されていないデータをすぐに使う必要がなくても、後で役に立つ可能性があります。問題は、従来のデータウェアハウスでは、構造化されていない情報を保存したり、作業したりすることができないということです。そこで「データレイク」の出番です。

Related Reading: How to Make a Data Lake Worthwhile for Your Business

データレイクは、従来のデータウェアハウスと連携して、膨大な量の非構造化データを保存します。あらゆるタイプの情報をデータレイクにインポートして、情報を別のファイルフォルダにダンプするように、ゆるくカタログ化することができます。データレイクは、IoTデバイスのネットワーク、ソーシャルメディアサイト、電子メールアカウント、モバイルアプリからのデータなど、複数のソースからリアルタイムで生の情報を受け入れることができます。

Arcadia Dataの調査によると、データレイクを利用している企業は優れた成果を上げています。

  • 調査参加者の76%は、「データレイクに対するBI/アナリティクスにより、ビジネスユーザーのアナリティクスの数と価値が向上する 」と考えています。
  • 調査参加者の72%は、現在使用しているデータレイクが 「ビジネスユーザーのより良い意思決定とアクションを促進する 」と感じています。

ここでは、データレイクのメリットをさらにご紹介します。

  • 大規模な非構造化データプールへのアクセス:データレイクは、機械学習ツールが非構造化データの大規模なプールをクロール、カタログ化、インデックス化し、過去のグラフ、予測モデル、および「処方範囲」の提案という形でインサイトを生み出すことを可能にします。データレイクと連携する機械学習プラットフォームには、Presto、Apache Spark、Apache Hadoop、その他のビジネスインテリジェンスソリューションなどがあります。
  • 構造化されていないデータを分析することで、今までにないインサイトを:これまでアクセスすることができなかった非構造化データを分析することで得られるインサイトは、非常に明るいものになります。この例では、ビジネス インテリジェンス チームが従業員のパフォーマンスを分析しました。構造化データはバイアスを明らかにすることができませんでしたが、それが明らかになったのは、BIチームが機械学習アルゴリズムを調査の非構造化自由記述部分に適用した後でした。構造化されていないデータの分析では、マネージャーが従業員の特定の性別や年齢を説明するために使用した言葉の中に、体系的な年齢や性別の偏りがあることが明らかになりました。データレイクは、BIツールが非構造化データを分析できるようにするため、この例のようにこれまで見えなかったインサイトへの扉を開けることができます。
  • より価値のある研究:機械学習ツールに、これまで立ち入り禁止だったデータへのアクセス権を与えることで、収益機会を明らかにすることができます。例えば、顧客がどのような戦略に反応し、どの戦略を拒否するかを理解するために、より多くのCRMデータを取り入れることができます。あるいは、アイデアを市場に出す前に仮説や仮定をテストすることもできます。最後に、IoTデバイスによって収集された製造データを見ることで、企業はリアルタイムのレポートと迅速な対応によってプロセスの効率を劇的に向上させることができます。

最後の注意点として、データレイクをデータウェアハウスで使用してビジネスインサイトを導き出すのは、まだ比較的新しいことです。そのため、このような高度なBI戦略を使用する前に、強力なサポートチームを用意しておくようにしましょう。

4) もう1つの選択肢: データレイクハウス

データの保存という話になると、もう一つの選択肢はあるでしょうか?それは、データレイクとデータウェアハウスを組み合わせ、"データレイクハウス "と呼ばれています。

データレイクハウスは、データレイクとデータウェアハウスにつきまとう以下のようにいくつかの問題に対応しています。

  • データウェアハウスは、厳密に構造化されたデータを特徴としており、ビジネスに精通している人には読み取り可能で、他のアプリケーションでも使用可能です。しかし、ウェアハウスには制限や制約があり、特にスキーマやコンピューティングとストレージの緊密な結びつきには制約があります。
  • データレイクは、データサイエンティストやモデルに対して分析のための多くのオプションを提供しますが、意思決定者が必要とする決定的で実用的な情報を提供できない場合があります。

「データレイクハウス」は、両方のモデルの長所を取り入れるための折衷案的な試みです。データレイクハウスのスケーラビリティと俊敏性を備え、データウェアハウスの可読性と構造を提供します。

詳細については、データレイクハウスの詳細な記事をご覧ください。

Xplentyとデータインテグレーション

「データウェアハウスとは何か?」という質問に対して、良い回答を提供できたと思います。願わくば、ここまでで、データウェアハウスと、それが現代のビジネスにおいて重要である理由をよく理解いただけたかと思います。今、あなたはデータウェアハウスをセットアップし、そこにすべての異なるデータソースをロードしなければなりません。あなたが適切な人材とツールを持っていない限り、それは簡単なことではありません。

もし、あなたやBIチームがデータウェアハウスとBIプラットフォームへの主要なデータストリームの統合に手間取っているのであれば、Xplentyがお手伝いします。Xplentyのすぐに使えるETLソリューションを使えば、統合は素早く、速く、そして痛みもありません。待っている暇はありません。今すぐXplentyチームに連絡して、私たちの技術がどのようにデータ統合のボトルネックを打破できるかを確認してください。

製品のデモに興味のある方は、以下のサイトより申し込みください。(予約サイトは英語ですが、日本語でデモします)

Xplentyのデモ紹介に登録して、無料でプラットフォームを試してみよう!

また、トライアルを試してみたい方は、以下のサイトよりお申し込みください。

Xplentyを無料で試してみよう!

Originally published on August 16th, 2019.