» 偽の関連に気をつけろ ”correlation doesn’t equal causation”

株式会社データ総研 データ総研のオンサイト教育
製品案内 DMBOK ITコンサルティングサービス ITコンサルティング事例 紹介セミナー 教育コース 技術情報 DRIブログ 会社概要
偽の関連に気をつけろ ”correlation doesn’t equal causation”

データマイニングの世界では、「週末にビールとおむつが同時に売れる関係」が有名です。

たとえば、次のような内容です。
「業界トップクラスの小売企業が、データマイニングのツールを使って店舗の売上データを分析したところ、週末にビールとおむつが同時に売れる関係を発見した。ビールとおむつを買いやすいように商品の配置を変えたところ、大幅に売上が向上した。」

ビールとおむつの販売傾向を示す数値の関係を見つけて、データアナリティクスの担当者は、その裏に隠れてるストーリーを想像します。

たとえば、食事の支度でいそがしいお母さんに「ビールが切れているから、そんなに飲みたいなら自分で買ってきて」と言われたお父さんが、ビールを買いに行く姿を思い浮かべます。そのとき、「おむつもいっしょに買ってきて・・」と頼まれたのでしょう。

あるいは、日頃から、重いものや運びにくいものを買うのはお父さんの役目になっていて、週末におむつを買いに来たついでに、自分が飲みたいビールも買っていくのでしょう。

この「ビールとおむつストーリー」は業界では非常に有名です。しかし、この話しが真実かどうか、私は知りません。

最近ブームになっているデータアナリティクスについては、非構造化データの解析であっても、従来からのデータマイニングであっても大量のデータから「ビジネス的に意味ある傾向」を発見しなければなりません。しかし、値から意味を見つけ出すことは非常に難しいものです。それは偽の関連という落とし穴が存在するからです。

次のリンクをご覧ください。
http://www.onthemedia.org/story/spurious-correlations/

この例では、2つの数値の増減が何らかのアルゴリズムで似ていると判断され、グラフに表されています。しかし、普通に考えれば、この数値に意味のある関係が無いのは明らかです。

ケース1
1)ベッドシーツにからまって死んだ人の数
2)スキーの道具の売れ行き

ケース2
1)科学・宇宙・テクノロジーに費やした金額
2)首つり・窒息・呼吸困難による自殺者の数

ケース3
1)プールで溺れた人の数
2)ニコラス・ケイジが登場する映画の数

この例のように「偽の関連」と気がつきやすい状況であれば、その後予算や工数を使って対策をとる必要もないですが、冒頭に示した「ビールとおむつストーリー」は、誰もが理解しやすい内容なので、真偽を判断しにくいものです。

データアナリティクスの担当者が、「ビジネス的に意味ある傾向」を発見するためには、数値の世界と現実世界を関連付ける訓練が必要になります。大量のデータ間の関係を「ビジネス的に意味ある傾向」として、事前に頭に入れておかなければ、新たなストーリーの発見につながりませんし、現場で起きている沢山の事象を知っていなければ、新たなデータ間の関係を調査するきっかけもつかめません。

データ総研 コンサルタント