問題です
以下の考え方の問題点は何か。
「野球の先攻と後攻はどちらが有利なんだろう?ちょっと調べてみよう。試合数の多いメジャーリーグのデータを見てみるか。これによれば、2010年シーズンの2430試合で、後攻チームの勝率が5割5分9厘か。先攻チームの4割4分1厘より27%程度高い。野球ってけっこう後攻が有利なんだな」
解答です
今回の落とし穴は、「擬似相関」です。これは、ある要素とある要素の相関関係を見た時、一見相関があるように見えて、実は、その相関関係は別の要素(因子)の影響によるものであり、もとの要素間には本来相関関係がない(あるいはほんの一部にすぎない)というものです。
今回のケースでは、サンプルとしてメジャーリーグの数字をとったことに問題があります。これは日本のプロ野球も同じですが、基本的に、野球というゲームで後攻となるのはホームチームです。日本の場合は地方球場での試合もあるので、100%後攻チームが地元チームというわけではありませんが、メジャーリーグでは地方興行は滅多にありませんから、ほぼ100%、後攻チームは地元のホームチームとなります。つまり、可能性として、先攻、後攻の影響以上に、地元のホームチームかそれともビジターチームか、という要素が強く出てしまう可能性があるのです。
ホームチームが有利となる理由としては、観客の声援、選手の疲労緩和、審判の有利な判定などがありそうです(なお、審判の判定については、「微妙な判定では、地元に有利になるようにするのがいい」という暗黙の了解があるとも言われています。野球はそれほどでもありませんが、プロバスケットボールなどではその傾向が強く、選手もそれを承知の上でプレーします)。
このケースであれば、正しく先攻、後攻の差を調べるのであれば、甲子園の高校野球や、大学、社会人野球といった、ホーム/ビジターの別がない試合のデータをとることが必要でした。ちなみに、ある調査によれば、甲子園大会や東京六大学、あるいは都市対抗野球などのゲームでは、先攻と後攻でどちらが有利ということはほぼないという結果が出ています。逆に言えば、冒頭の事例の勝率の差異は、ほぼ、ホーム/ビジターの差が反映したものと考える方が自然なのです。
その他にも、擬似相関としては以下のようなものがあります。カッコの中に、本質的に影響を与えていると思われる隠れた影響因子を書きました。カッコ内を読む前に、まずは何が隠れた影響因子かを考えてみてください。
・国別の携帯電話普及率とうつ病患者比率(「先進国度」が両者に影響。先進国ほど携帯電話の普及度は高い。一方で、先進国ほど仕事も複雑になりストレスがたまるためうつ病が増える。また、先進国ほど医療が発達し、うつ病という診断が下されやすい)
・我が国におけるインターネット普及初期のインターネットユーザーと非ユーザーのサッカーファン比率。ユーザーの方がサッカー好きが多い(「性別」と「年齢」が隠れた影響因子と考えられる。インターネット初期の頃は、ユーザーは20代から40代の男性が多く、サッカーファンが相対的に多かった。さらには、「新しいもの好き」という性格要因も影響因子である可能性がある。インターネット初期の90年代中盤は、Jリーグ初期の時代とも重なっている)
・携帯メールで絵文字をたくさん使う人はケータイ小説愛読率も高い(「年齢」が隠れた影響因子。若い人ほど絵文字を使い、かつケータイ小説を好む)
・ビールが売れるほど水難事故が増える(両者とも「気温」の影響を受けている。夏で気温が高いほどビールが飲まれ、また、プールや海に行く人も多くなるため水難事故が増える)
・県別の小中学校数と地上落下隕石発見件数(「人口」が隠れた影響因子。小中学校数は概ね人口に比例する。また、人がいないことには地上に落下した隕石は発見されない)
・靴のサイズと数学の問題の正答率(擬似相関に関する古典的な事例。隠れた影響因子は「年齢」。年齢が高いほど、靴のサイズが大きく、また、数学の学習が進んでいるというだけの話である。似たような例で、「小学生の言語能力と髪の長さの相関」という事例もある。このケースでは、「性別」が隠れた影響因子。一般に、小学生では女児の方が言語能力の発達度合いが高く、また、男児に比べると当然髪も長めにする傾向がある)
散布図を書いて相関関係を見ることは、ビジネス的にも、さまざまなヒントを得ることができる基本的な分析と言えます。たとえば、国別の1人当たりGDPと、使い捨て商品(生理用品や使い捨ておむつ、使い捨てコンタクトレンズなど)の普及率を散布図にすると、分かりやすい相関関係が見られ、グローバルマーケティングを考える上での参考となります。
しかし、散布図の上で相関係数(相関の度合いを示す指数)が高かったからといって、直ちに直接的な関係があるということにはなりませんし、ましてや、因果関係があることの証拠となるわけでもありません。特に擬似相関は陥りやすい罠ですので、そもそも調査対象としてどのようなサンプルを選んでいるのかを確認した上で、「他に影響を与えている因子はないか?」を確認する癖をつけたいものです。