データサンプリングが企業に及ぼす悪影響とは
世の中に広く使用されている分析ツールでも、あたりまえのようにデータサンプリングを基に分析が行われておりますが、実は潜在的な危険性や経済的リスクがあることはご存知でしょうか。
アナリティクスにおけるデータサンプリングとは?
データサンプリングは、トラフィックデータの一部を分析し、全体的な結果を推定する手法です。全データを収集するのではなく限定的なサンプルデータのみにアクセスしています。つまり、既存のパターンに基づいた推定データなのです。
データサンプリングのメリットは、レポーティング結果の迅速な作成、より大きなデータセットに含まれる有意義で価値のある情報を引き出せることです。
データサンプリングの仕組みとは?
データサンプリングは「確率サンプリング」と「非確率サンプリング」の2つのカテゴリーに分けることができます。
- 確率サンプリングとは、さまざまな統計的手法(層別サンプリング、系統的サンプリング、多段階サンプリング、クラスター・サンプリングなど)を使って、より大きな母集団からランダムにサンプルを選ぶことを言います。データセット内のメンバーに番号を割り振り、上記の自動処理でランダムに選択することで、セット内のすべてのメンバーが平等に選択されるようにします。確率サンプリングを使用することで、母集団の部分的な代表サンプルを取得できます。特定の系統誤差やサンプリングバイアスを除去し、信頼性が高くなる傾向があります。
- 非確率サンプリングは、ランダムではなく、分析者の主観的な判断に基づいてサンプルを選択するサンプリング手法です。これによりランダム化がなくなるので、母集団のメンバーそれぞれの選択される確率が不平等なサンプリング方法です。非確率サンプリングでは、より大きな母集団を正確に示すサンプルが作成される可能性は低いですが、複雑性が低く、よりスピーディで安価というメリットがあります。
Googleアナリティクス(以下GA)の無料版は確率サンプリングを使用し、データは集計され、ランダムなデータセットとして利用されます。つまり、オーディエンス、ユーザー獲得、ユーザー行動、コンバージョンのレポートなど、G Aが提供する標準レポートは、すべてサンプリングされたデータに基づいています。カスタムレポートを作成する際にもGAのデータはサンプリングされます。そのため、作成されたレポートがトラフィック全体を表しているのか、または企業に価値のあるトレンドが表示されているのかがわからず、また、選択されたデータセットが正確な情報を提供しているのかどうか確認のしようがありません。ダウンストリームの可視性の欠如は意思決定を妨げ、ビジネスの効率化に直に影響を与えてしまいます。特に大企業ではそれが顕著に現れます。Googleがユーザーにプレミアムオファーへのアップグレードを推奨するのはこのためです。
データサンプリングにより制限されてしまうこと
1. 代表的サンプル
統計学上では、行動データの母集団が研究される場合に、サンプルは常に代表的サンプルでなければならないという標準的なルールがあります。代表的サンプルとは、より大きな集団の中の少量または部分集合と定義されており、より大きな集団と同じ性質と比率を表しています。そのサンプルを制限してしまうと、データがすでに予測されているため、実際に起きているパターンを捉えることができず、データ全体で分析していれば獲得できるはずの情報を逃してしまう可能性があります。
例:貴社のウェブサイトの月平均PV数が5千万で、1日平均セッション数が5万の場合、サンプリングは月で1千万PV、1日で1万前後のセッションに制限される可能性があります。この状態では全データを正確に把握することは不可能であり、ウェブサイトが成長すればするほど、レポートの不正確さは増すことになります。
2. サンプルデータの制限
サンプルデータは日々異なるため、データサンプリングは累積データを含みません。つまり、月次、四半期、年次の累積結果も表示されることはないのです。実際の例をいくつか挙げてみましょう。
例1:サンプルデータ(クォータ)が集まった時点で データ収集は終了する
貴社の制作部門が水曜日と金曜日の午後5時に限定オファーを含むキャンペーンをサイト上で実施したとします。水曜日の午後6時にサンプルデータが必要量に達した場合、キャンペーン後のデータは1時間分のみ分析の対象となります。金曜日、午後4時にサンプルデータの必要量に達した場合は、午後5時のキャンペーン後のデータは一切含まれることはありません。キャンペーン後のサイト訪問者の行動はキャンペーン前と大きく異なったとしても、それらが分析対象になることはありません。
更に火曜日の朝にニュースレターを配信するとして、火曜日のサンプルデータ(午前11時に必要量に到達)と水曜日、金曜日のサンプルデータを比較や追加することもできません。
これは、1ヶ月の累積PV数の合計にも当てはまります。例えば、11月に2千万PV中1千万PV、12月には1億PVのうち1千万PVしか分析対象にならなかった場合、獲得した2千万PV(11月と12月の獲得データの合計)は明らかに、実際の合計の1億2千万PVを象徴したものでないことがわかります。また、平均PV数を出すこともできません。
例2:サンプリングデータの一部のみを使用するケースがある
次に、貴社のサイトで400万のPV数と36万のセッション数が履歴に表示されていたとします。クォータサンプリングの調査枠はそのうちの70%のデータを収集するとして、これは時期による変動に大きな影響を受ける可能性があります。例えば、12月のトラフィックが他の月の2倍である場合、70%のデータでは大きすぎるため、収集するデータの数値を35%まで落とします。つまり、35% の制限に達するとデータ収集がストップしてしまうので、例えば2月が通常の半分のトラフィックである場合に、実際のデータが制限値を下回るため、サンプリングの意味がなくなってしまいます。
包括的データセットの重要性
企業のアナリティクス・ソリューションは、ユーザーが貴社のデジタル・プラットフォームで行うすべてのアクションを、いついかなる時も収集し、測定できなければなりません。また、戦略的な分析が必要となる大量のトラフィックが発生する期間 (割引期間や大規模なキャンペーン時等) には、ソリューションがすべてのデータを見逃さずに収集できることがさらに重要です。
例えば、大規模なプロモーションを行っていて、キャンペーンにウェブサイトへのトラフィックを増やすためのテレビCMが含まれているとします。テレビCMの放映後数分で貴社サイトへの訪問数が急増しますが、アナリティクス・ソリューションの収集サーバーは大量のトラフィックに対応できず、収集エラーが生じてしまうと、大量のデータを逃すだけでなく、テレビCMが意図した結果をもたらしているかどうか、ROIをどの程度生み出しているかなど重要な情報を知り得ることができません。保持しているデータがサンプルデータのため、不完全で不正確なキャンペーンパフォーマンスの結果が表示されてしまいます。
企業が保持するデータは、社内のあらゆる部署からの多種多様な質問に答えられるように、包括的でかつリッチな情報を持っていなければなりません。
質問例)
- 特定の場所と時期における各キャンペーンの成果は?
- 特定の製品におけるキャンペーンの成果は?
- スマートフォンユーザーとデスクトップユーザーの間で、特定の製品の売上はどのように比較されたのか?
位置情報や使用しているデバイスのデータなど、特定の情報が抜け落ちている場合、重要な項目が全体像から欠けてしまうことになります。
データサンプリングを回避するために、どのような解決策があるでしょうか?
小規模のサンプルデータセットを使用すると、組織内の意思決定に著しく悪影響を及ぼす可能性があります。サンプリングされたデータは一般的な傾向を知ることはできますが、サンプルが小さければ小さいほど正確なものではなくなります。特に小規模なデータで詳細な分析を行うときに、その傾向は顕著になります。
データドリブンな意思決定が正確であるためには、完全で包括的かつ十分にリッチな情報を持つデータに基づいていなければなりません。そのため、アナリティクスツールは必要なデータをすべて収集し、さらにこのデータに基づいたアクションを起こすための適切な処理とエンリッチメントを提供する必要があります。データが欠落していたり破損していたりすると、現実を完全に反映していない偏った情報に基づいて戦略的な意思決定がなされるリスクがあります。
Pianoはデータサンプリングを一切使用しないため、完全で信頼できる正確な情報に基づいて意思決定を行うことができます。
包括的データの5つの基準
- データサンプリングなし:データサンプリングは一般的な傾向を追うことはできても、サンプルが小さければ小さいほど、現実を反映するものではありません。
- データ管理手順: 優れたデータガバナンスの不可欠な要素のひとつとして、定期的な手順(自動テストなど)により、すべてのタグの存在を確認することができます。
- 徹底された監査:特にサイトやアプリに重要な変更を加える場合は、必ず実施する必要があります。
- サービス契約(SLA): ウェブ解析プロバイダーは契約上、100%に近いデータ収集率を保証する義務があります。
- ドメインファーストの測定:独自のドメイン名を使用した収集ソリューションを使用して、アドブロッカーまたはITPによってブロックされたトラフィックを回復します。