404 motivation not found | t_ishidaのブログ

CAT | 統計

前書き

統計学入門読みながらメモつけてます。何回かに分けながらノンビリやっていきます。数学が得意な人とか読む必要ないです。

統計とは何か?

1000万件のデータが有るとしたらそれを片っ端から見ていく分けにいかないので、そのデータの概要が欲しくなります。そこでデータを抽象化するために使用するのが統計です。この統計は時間軸から見て過去に着目した統計です。この過去の統計を使用すると未来を予測する事が可能です。過去の傾向から見て「未来も大体そうである。」予測するのです。この二つが、統計の目的です。

抽象的なデータの見方の第一歩としては「件数」、「集計」と言うのが有ります。その2つを使用して即刻算出来るのが「平均」です。

平均

平均とは言うまでもありませんが単純な集計結果をデータの個数で割ったものです。これによりデータの中で代表となる値が分かります。

document.write(  avg(  [1,2,3,4,5,6,7]; )  );
function avg( data ) {
  var sum  = 0;
  for( var i = 0, l = data.length; i < l ; i++) sum += data[i];
  return sum / data.length;
}

当然ですが、単に代表的な値でしかないので、

  document.write(  avg(  [1,2,3,10000000000000000000 ]; )  );

とかだと、全然ダメな事になってしまいます。

相対度数

さていきなり話は変わります。平均値ってダメじゃんなまんま話をいきなり変えます。車のスピードメーターやら、時計を思い浮かべてください。
40〜50KM/h
50〜60KM/h
60〜70KM/h


1〜5分
10〜15分
15〜20分

のように目盛がついて区切りがついています。このように人間が大雑把に認識しやすいように数値には範囲をつけています。これをデータの集合に応用すると範囲の中にデータをグルーピングして大雑把に分類して把握しやすくなります。例えば、数学のテストの結果のデータの集合が有ったとします。

点数の範囲(階級) 代表値(階級値) 個数(度数) 割合(相対度数) 平均からの距離(偏差)
1〜5点 3 5 0.1 -10
6〜10点 8 10 0.2 -5
11〜15点 13 20 0.4 0
16〜20点 18 10 0.2 +5
21〜25点 23 5 0.1 +10
集計   50 1.0  

ちなむとこのテストの結果の平均値は13点です。階級値(代表値)と相対度数(割合)を掛けた各階級の値を集計すると平均値になります。値をサマッて個数で割ったのと一緒です。

3 * 0.1 +
8 * 0.2 +
13 * 0.4 +
18 * 0.2 +
23 * 0.1

階級値からこの平均値を引くと偏差(平均からの距離)になります。さて、テストの結果の統計値として偏差値とか言う怪しげな値を良く目にすると思います。その算出に使用するのが標準偏差です。標準偏差は、偏差の平均値です。見ての通り偏差は-と+の値が入り交じってるので、このままサマッて割ると怪しげな値になりそうです。と言うより0になりそうです。

( 100 + 25 + 25 + 100 ) / 50 = 250 / 50 = 5

なので2乗して個数で割ってルートする事になっています。sqrt(5)、つまり、ふじさんろくにおうむなくです。2.23です。偏差値は平均点の人に50の持ち点与えて標準偏差一個分のずれを+-10点として計算します。

つまり、
13点の人が偏差値50です。
10.7点の人が偏差値40です。
15.3点の人が偏差値60です。

つまり、偏差値40〜60って極めて普通の人です。この計算方法は出典書かなくてもググればすぐ見つかるので興味ある人は探してみてください。

Share and Enjoy:
  • Digg
  • del.icio.us
  • Google Bookmarks
  • Tumblr
  • email
  • Facebook
  • FriendFeed

No tags

Find it!

Theme Design by devolux.org

Tag Cloud