はちのじ

はちのじ

IQ高め女子のちょっとニッチな雑記

元理系による文系のための統計学入門(未満)

f:id:copperpot:20170604220544j:plain

こんにちは、元理系女子のハチヤユーカ(@yukapanz)です(詳しくは後述)。

 

突然ですが、あなたはビジネス書を読まれますか?

 

世の中には数多のビジネス書がありますが、中でも統計学に関する本はそれだけで一大ジャンルを築いています。

 

しかしながら学生時代に文系だった方の中には

「本は好きだけど統計学はちょっと……」

と拒否反応を示してしまう方も多いのではないでしょうか。

 

というわけで、今回の記事では

  • 文系に統計学は必要なのか?
  • どんな知識を身に付けるべきなのか?

この2点について簡単に考えてみましょう。

 

小難しい計算や数字の話はありませんので、どうか安心してお読みください。

高校数学における統計学の位置づけ

ちなみにわたしは高校時代は理系、大学入学時に文系学部に入ったという中途半端な経歴の持ち主です。

だから冒頭で「元理系女子」と名乗ったわけです。

ですので根っからの理系の方はどうぞお手柔らかにお願いします……。

 

さて、まずはほとんどの方が統計学と出会うきっかけになったであろう高校数学について思い出してみたいと思います。

 

わたしが高校生だった頃は、学校の授業で統計を学ぶのは高3になって数学Cの授業を受けるようになってからでした。

(余談ですが、2017年現在の学習指導要領では数学Cが消滅しているようですね)

 

学校にもよるのでしょうが、文系クラスは数学ではなく英語や古文に力を入れていたような覚えがあります。

 

そんな高校数学の上位レベルとして位置づけられていたはずの統計学。

文系の方が社会に出ていざ勉強しようとしても難しいのではないでしょうか。

 

必要なのは統計学そのものではない

それならば文系は統計学がまったく分からないままでいいのか?というと、それも違います。

 

少し話が逸れますが、震災や事故が起こったときによく

「Twitterでデマを広めてはいけない」

と啓蒙されますね。

わたしはデマを広めてしまう人は大きく分けて2種類いると思っています。

  • デマをおもしろがって広める人
  • デマをデマと思わず広めてしまう人

前者は人としてどうかと思いますが、後者はまだ救いがあるように思えます。

そこに悪意はなく、ただ単にリテラシーが足りていないだけなのですから。

 

統計的データを扱う場合においても似たようなことが言えます。

データを正しく読み解くリテラシーは、文理関係なく誰しもが身に付けるべきものです。

 

統計におけるリテラシーとは?

このように「統計リテラシー」という言葉を冠した本もあるくらい、統計学とリテラシーには切っても切れない関係があります。

 

統計リテラシーとは、端的に言えば

「恣意的に捻じ曲げられたデータに騙されないように、データの内容やその信頼度が本当に正しいのかを見極める・検証する力」

のことです。

 

統計リテラシーがあるか確かめてみよう

何かにつけて「自分こそは騙されない」と思っている人ほど騙されてしまうというのはよくある話ですよね。

というわけで、あなたに統計リテラシーが身についているかを簡易的に確かめてみましょう。

 

ジャンクフードを多く食べると……?

たとえば、1ヶ月のうちにジャンクフードを食べた日数と体重の相関関係をを調査し、その結果こんなグラフができあがったとしましょう。

f:id:copperpot:20170604104649p:plain

ちなみにこのグラフの形式は「散布図」といい、縦軸と横軸が交わるところにぽつぽつと点を打っていったものです。

 

さて、あなたはこのグラフから何を読み取りますか?

 

ジャンクフードを食べた日数が多いほど体重が重い?

なんとなく右肩上がりに点が配置されているので、

「ジャンクフードを食べた日数が多いほど体重が重くなる傾向がある」

と考えた方も多いのではないでしょうか。

 

しかし、ジャンクフードを食べた日数が多いから体重が重くなったとこのデータのみで言い切ってしまっていいのでしょうか?

 

スポンサーリンク

 

 

体重が重いのはジャンクフードのせいなのか

ここにもう一つのパラメータを足し、あらためて考えてみましょう。

たとえば「1日の平均摂取カロリー」

 

それが

  • 2500kcal以上
  • 1500~2500kcal未満
  • 1500kcal未満 

の3つになるようにグループ分けをしてみます。

f:id:copperpot:20170604110421j:plain

そしてそれぞれの円の中をよく見てみてください。

何かに気が付きませんか?

 

ためしに1日の平均摂取カロリーが2,500kalのグループを拡大してみてみましょう。

f:id:copperpot:20170604110514p:plain

点が右肩下がり気味に配置されている列ができているのが見て取れるのではないでしょうか。

 

つまりこの場合、ジャンクフードを食べた日数が多いからといって体重が重いとは限らないということになります。

他の円の中を見てみても同様の傾向が見て取れると思います。

 

実際にデータを取ってみたらどうだかわかりませんが……例題ですのでね。

 

ここに新たに運動量や睡眠時間などを足してみるとまた違った結果が現れるかもしれませんが、今回はあまり複雑にしたくないのでここまでにしておきます。

 

さて、あなたが最初のグラフを見たときに読み取った傾向は正しかったでしょうか?

 

パッと見で判断しない

今回の例のように、パッと見で捉えられる情報と、分析を進めていったときに現れる傾向が違うということは実際にも起こりえます。

ビジネスの場でこれを見誤ると、マーケティングや経営判断に失敗してしまうこともありうるわけです。

 

また、この傾向を利用して人を騙そうとするビジネスも残念ながら存在します。

 

そのため何かのデータを見るときは

  • 本当にそれが正しいのか?
  • 他に何か分析の足掛かりになる情報があるのではないか?

などと考えてみてほしいと思います。

 

データに騙されないよう、そしてうっかり人を騙してしまうことがないよう、お互い注意深くデータと向き合っていきましょう!