社内開催の『統計勉強会』に参加してみた③

社内開催の『統計勉強会』に参加してみた③

直前の「統計勉強会」を不参加したことにより悪戦苦闘してしまった、前回の “「母平均」の推定”。
<前回のおさらい『社内開催の「統計勉強会」に参加してみた②』>

そして今回は2つのデータを使った “「母平均の差」の推定” でした。
ちなみに今回は休まなかったので大丈夫……なハズです!

「母平均の差」って?

「東京」と「大阪」の平均年収の差は?
上記例題のような2つのエリアの平均値に、違いがあるのかどうかを推定していきます。

今回の演習では「どちらの先生に教れば、テストの点数が上がるのか?」を推定することになりました。
先生にしてみれば、なかなか残酷な推定ですね……w

■テストの点

パッと見た感じでは「教師B」の方が良さそうな感じですが、果たしてこの直感は正しいものなのでしょうか?
次にこれを推定していくことになります。

実際の計算説明

この差を式にしていきます。

左辺の記号は「デルタ」、右辺の記号は「ミュー」というらしいです。

  • デルタ:母平均の差
  • ミュー:母平均(1、2はそれぞれの集団を表しています)

ただし、まだ母平均が分からないので、標本平均からこれを推定していく必要があります。

式は上記のようなものとなり、この「d」の分布は “正規分布する” らしい。。。


そして上記は “「d」は正規分布する” という式になり、それぞれの変数(文字記号)は以下のような意味を持ちます。

  • d:先の式の通り、標本平均の差に当たる
  • N:正規分布という意味
  • デルタ:先の通りで「母平均の差」
  • M:1つ目の集団の標本数
  • N:2つ目の集団の標本数
  • シグマ:この場合は二乗してるので集団の分散 ※本来は差を取っていくものだが、分散が大きくなってバラつくので和にしているらしい

なお、「d」も正規分布するので、95%の範囲に入る部分を推定する式は以下のようになります。

この場合で、かつ仮にそれぞれの分散が分かっている(※)と仮定して進めます。
※最初の「テストの点」で標準偏差が出ている状態であるため

続いて、すでに分かっている数値を当てはめていくことになりますが、前回同様、自由度が大きければ標本分散を母分散と見なして進めることも可能です。

m+n >= 100
 →この場合、シグマ(標本分散)を母分散とみなして展開していく

なお、少ない場合は「t分布」を使用していくことになりますが、この場合も2つの推定方法があります。

m+n < 100

それぞれのグループの分散と同様であると「仮定」

■studentの推定

 →「m + n – 2」が「t値」の自由度も固定している
 →「S*」は「S*1」と「S*2」が同様であることを仮定しているという意味

それぞれのグループの分散は同様ではないとする

■welchの推定
 →式は同じだが、自由度の部分をしっかり出すので、コンピュータを使って行うらしい

今回の場合は「studentの推定」で行うことになります。
まずは先の「studentの推定」を展開しましょう。

続いて「教師A」と「教師B」のどちらの先生についた方が点数があがるのか推定していきます。

まずは「S*」を求める

続いて「d」を求めるますが、すでに平均点が分かっているので単純に引き算すればいいだけです。

最後に「studentの推定」の式に当てはめましょう。

ご覧の通り、「教師B」の方が優秀と言えます(「A-B」で行っているため、値はマイナスに)。
※この場合、95%範囲における点数の開きが3~14点となる。

少しずつ難しくなってきました

R言語で行えば、関数に必要な情報を当てはめてることもできますが、このようにちゃんと計算して、そもそもの意味を把握していくことは大事だと思いました。
(今回の場合はベースのデータではなく、“平均” といったある程度計算された値からの推定なので、かえってR言語だと難しい?)

事実、少しずつ難しくなってきました。しかし、面白くなってきているのも確かです。
すでに次回の「統計勉強会」が楽しみでしかたがありません!

コメント