『ビジネス数字力を鍛える』から「散布図を分析するときのコツ」を紹介します。
散布図は実務的によく用いられる分析のためのグラフです。分析する際は、「異常値がないか」「傾向が異なる集団が混じっていないか」といった点に注意する必要があります。異常値は、本文で述べていることだけでなく、ベストプラクティスや特殊なビジネスモデルを探るヒントにもなります。傾向の異なる集団が混在しているかもしれないと仮説を立てて検証することは、「事業経済性の異なる企業群が混在している」「ニーズの異なる顧客層が違う反応を示している」といったことを発見することにもつながります。
筆者自身、こうした分析からヒントを得られた経験は少なくありません。いずれについても言えるのは、「この傾向ですべて説明できるだろう」「このサンプルはノイズであり、無視しても問題ないだろう」といった先入観を捨て、いったんピュアな視点でグラフを見ることです(特に最初から近似曲線を引くと、どうしてもそれに引っ張られるので、まずは純粋な点のみの散布図を描くことをお勧めします)。そうすると大きなトレンドから外れた異常値や、サンプルの塊に何かしらの意味があるのではないかという仮説が立つものです。面白い示唆をもたらす可能性が高い散布図だからこそ、丁寧に観察したいものです。
(このシリーズは、グロービス経営大学院で教科書や副読本として使われている書籍から、ダイヤモンド社のご厚意により、厳選した項目を抜粋・転載するワンポイント学びコーナーです)
◇ ◇ ◇
散布図を分析するときのコツ
いよいよ、作成した散布図を分析するときのポイントを見ていきましょう。
通常、散布図を見るときは、相関があるかどうかを確認することになりますが、それ以外に、「異常値の確認」「傾向の異なる2つ以上の集団の存在」「データ範囲の問題の確認」「相関がないところにも着目する」などの視点を持つと、いろいろなことが見えてくることが多いものです。
異常値の確認
散布図の分析のカギは、サンプル図を目で見ていろいろ考えてみることです。図を見てください。
取引金額が10000(千円)前後の3つのポイントが、その他のデータ集団とは異なる場所(全体の相関の傾向から右下にずれた場所)に存在しています。この3つの点さえなければ、全体の傾向がわかりやすいのに……というような状況です。
このような場合、元のデータにいったん立ち返り、このデータには何らかの特殊要因がないかどうかを確認してみます。つまり、異常値なのかどうかの確認です。
もし、何らかの理由でそれらのデータが異常値であると認定できるのであれば、それらを外して分析を進めればよいわけです。例えば、人事に関するデータであれば、この3つ、つまり3人の名前を個別に特定し、特別扱いしてもよさそうな人なのか(例えば、この3人だけが親会社からの天下り社員だったなど)を個別にあたるわけです。
ただし、「分析しにくい(解釈しにくい)=異常値」として、簡単に切り捨ててしまうのは本末転倒です。いずれの場合も必ず元データに戻り、なぜこのデータは分析に使わないのか(外してもよいのか)を明確にすることが重要です。
傾向の異なる2つ以上の集団の存在
作り方のところでも書きましたが、異なる特性を持つ2つ以上の集団が存在していないかという視点で散布図を見ることは非常に重要です。
先のグラフを改めて見てみましょう。下図に示したように、厳密に見ると、もっと細かく特性を分けられるかもしれません。
このように、ある特性を持ったいくつかのグループがあるのではないかと考えることで、いろいろなことが見えてくるのです。私自身はデータを見る際に、以下のようなことを心がけています。
・先入観を持たずに図を見る
・データが一定の数を超えた場合は、1つの傾向だけで語りきることができる(つまり、すべてのデータを1つのグループとして扱える)ケースは少ないことを前提とする
(本項担当執筆者:グロービス経営大学院 経営研究科 研究科長 田久保善彦)
『ビジネス数字力を鍛える』
グロービス経営大学院/田久保善彦 (著)
1728円