社内開催の『統計勉強会』に参加してみた②

社内開催の『統計勉強会』に参加してみた②

久しぶりに「統計勉強会」に参加してきました。
<前回のおさらい『社内開催の「統計勉強会」に参加してみた』>

「統計勉強会」の開催自体が2週間ぶりとなっており、私自身がさらにその前の週に休んだことで、3週間ぶりの参加。
私が不参加だった前回は、どうやら「推定について」だったようです。
今回は前回の復習も冒頭で行われたのですが、すでに苦戦気味。。。

今回のbitWaveでは、私が不参加ゆえに苦戦した “推定の基本” についてご紹介いたします。

そもそも「推定」とは?

統計学では「推定」を一言で言うと、標本データから母集団の “何か?” を予測していくことを意味しているようです。
ここで言う “何か?” とは様々なケースがあり、例えば母集団の以下のようなものが対象となります。

  • 平均
  • 分散 etc..

つまり、こういった “何か?” を標本データを使って予測していくことが「推定」なのです。

また、「推定」もいくつか種類があるようです。

  • 点推定 →母集団の値を1つ確定する(今回の勉強会ではやらず)
  • 区間推定 →母集団の値を範囲で導き出す

つまり、今回の勉強会のテーマは『区間推定』です。

『区間推定』では、推定結果は以下のような範囲で示されることになります。
90 <= 母平均 <= 110 (95%) これは “「母平均」が90~110の間に95%の信頼度で存在する” ということを意味しているらしいです。 果たして今回の勉強会の内容についていけるのか……。

中心極限定理

『区間推定』を行う上で、必要となる数式があります。

これは “どんな分布でもその標本データの平均は正規分布する” ということを意味しています。

この数式を用い、「母平均」の『区間推定』を行っていきます。

なお、それぞれ変数(文字記号)は以下を意味しています。

※「n」は数式上では平方根(ルート)記号でくくられていますが、これは標本分散から標本標準偏差に展開したためとされています

ここで標本がある程度大きい場合は、母集団に近づくほどほぼ同様の分布をすることから、100以上の場合は「標本標準偏差」を母集団の標準偏差とみなしても良いとのこと。
なお、標本が少ない場合は「t分布」を用いるようです

難しいですね。
なんとここまでが前回の復習だったようです。なんとかボンヤリついていきました。

t分布

「正規分布」と同じような分布にはなりますが、自由度(標本数-1)が大きければ大きいほど「正規分布」に近づく性質があり、100を超えたあたりで「正規分布」に近い状態となります。

※この記号「∨」が自由度を指す

それでは実践してみましょう。
体重の標本データから母集団の平均(母平均)の範囲を求めてみます。
ここではR言語を使って解いていきました。

t分布計算:その1「標本データの定義と標本平均を確認」


Weightという配列(ベクトル)を11の標本データで定義し、mean関数で標本平均を確認。
この場合「64.90909…」という値となった。

t分布計算:その2「標本標準偏差を確認」


約12.31となった。

【間違い】 t分布計算:その3「母集団の式に当てはめてみたが……」




結果は95%の信頼区間において、「約57.631」から「約72.1867」の範囲に母平均が含まれるという結果に。
しかし、自由度(標本数)が100を超えておらず、11しかない。つまり、これは誤りですね。

次にR言語の関数を用いて解いてみると……

95%の信頼区間において母平均は「約56.635」から「約73.182」に含まれるという結果になりました。
当然ながら、先ほどの結果と少し異なりますね。

【正解】 t分布計算:その3「実際の計算式に当てはめる」

それでは実際に計算式を使って解いてみると……


結果、95%の信頼区間において母平均は「約56.636」から「約73.181」に含まれるという結果になりました。
これなら用意されている関数にほぼ近い値ですね。
※2.228はt分布表より自由度が「10」の0.05の位置(t値)

『統計勉強会』はナメてかかるべからず

今回も何とか勉強会についていけました。
理解もなんとなくできているし、目的も抑えられていると思うので……、大丈夫かな。

わずか三週間のブランクとはいえ、リカバリーも大変。
『統計勉強会』は侮れないです。
ただし、計算をR言語で行うとラクだったので助かりましたね。

コメント