社内開催の『統計勉強会』に参加してみた⑤

社内開催の『統計勉強会』に参加してみた⑤
■ 店頭より得で、予約しやすいオンラインショップ。
 → ドコモオンラインショップ
 → auオンラインショップ
 → ソフトバンクオンラインショップ

前回の予告どおり、今回のテーマは『検定』です。
<前回のおさらい『社内開催の「統計勉強会」に参加してみた④』>

『検定』とは?

『検定』……。勉強会ではなく、ついに試験なのか……と思われた方、ちょっと気が早いです!
『検定』とは合否判定の出る試験のことではありません!

ここでいう『検定』とは……

ある命題(※)が正しいのかどうか確率的基準で判断するもの
 ※注釈:真か偽で答えられるもの(仮説)  

を意味しています。

具体的な使用例としてはこんな感じです。

「DIPLOMATICO(ラム酒)」はアルコール40度としているが、これは本当の数値なのか?
8本を試しに開けて調査してみたところ、平均38度で標準偏差は4度だった。
そもそも平均度数が40度に到達していなかったが、これは偶然によるものだったのか?
それとも実は表記の40度より低いものであると決めつけてもよい?

また、こういった問題の対応でも使われています。

2m以上の日本人は存在する?

ちなみにこの問題では、「数学的解答」と「統計的解答」とでそれぞれ中身が異なります。

  • 「数学的解答」→ 存在する。数は非常に少ないものの、バレーボール選手などでは実際に何名か存在する
  • 「統計的解答」→ 存在しない

これが「確率的基準」となります。
つまり、『検定』とは「確率分布」になり、その値が稀なのかどうかを見ていくことを意味しています。

コイントスを『検定』する

まずコイントスを例に『検定』をしていきましょう。

    <コイントス:全20回実施>

  • 結果:表15回/裏5回

このコイントスでは「表」が出ればAさんが勝ち、「裏」が出たらBさんの勝ちと仮定しましょう。
そして、さらにこの勝負で使用したコインは、Aさんが用意したコインであるとも仮定します。
なんか、急にきな臭くなってきましたね~。

それを証明するために、使用されたコインが “イカサマ” コインなのかどうかを『検定』していきます。

“イカサマの” コイン:H1:対立仮説:P!=½
“ごく普通の” コイン:H0:帰無仮説:P=½
 ※注釈:「P」は確率を意味する

「H0(=普通のコイン)」を使用していたことを正しい仮説とします。つまり、確率分布1/2を使います。
これは「背理法」ですね。

「背理法」とは、例えば “ネコは動物である” という命題を証明するために、あえて “ネコは動物ではない” という仮定を設け、その仮定に矛盾点を見つけることによって命題を証明する方法になります。

話はコイントスに戻り、「H0(=普通のコイン)」を使用していたことを正しい仮説とした場合に「矛盾」が生じてしまうため、「H0」を棄却します。
ここで「有意水準」というものを設定するのです。
なお、有意水準とは「ある事象が偶然には起こらないだろう」と考える基準値を意味しています。
有意水準は自分で決めるもので「α」といい、0.05(95%)や0.01(99%)がよく使われるようです。

これ実際、累積確率で手前の14回まで「表」が出る確率は0.9793になえりますが、有意水準を0.05とした場合は帰無仮説を棄却します。
もし、有意水準を0.01とした場合は起こりうる(=通常コインとみなす)とし、対立仮説を棄却します。

『検定』で意識しおくこと

『検定』のリスクを把握しておく必要があると、講師の方はおっしゃられておりました。
その注意点とは……

「真実と判断」  

それでは不良品検査を例とし、その「真実と判断」をご案内しましょう。

  • H0:不良品ではない
  • H1:不良品である

仮に真実が「H0」であったとしても、統計では『検定』の結果により「H1」としてしまう可能性があるということです。
これを「生産者のリスク」と言います。
「生産者のリスク」は有意水準を広くしてしまうと帰無仮説の範囲が大きくなり、その結果で発生する可能性が増えてしまうというものです。

一方、逆の場合もあり、それは「購買者のリスク」と言います。
もちろん両社は密接に関連しており、「生産者のリスク」を狭くすれば「購買者のリスク」が向上してしまうというものです。

これらは自分で決めた「有意水準」次第なので、業態によって変えていくことが重要になります。
例えば医療関連で『検定』を実施するのであれば、「生産者のリスク」を上げる……といった塩梅です。

『検定』実践にあたってのフローまとめ

ここまで『検定』の説明をしてきましたが、『検定』を実践するに当たってのフローをまとめてみます。

  • 手順1:母集団を定義する
  • 手順2:仮説を立てる
  • 手順3:どの検定を使うべきかを決める
  • 手順4:有意水準を決める
  • 手順5:標本データから検定統計量を決める
  • 手順6:上で求めた検定統計量の値が棄却域に入ったかどうかを確認する

「手順6」において、検定統計量の値が棄却域に入っているならば「対立仮説」が正しい。
逆に棄却域に入っていなければ「帰無仮説は誤っているとは言えない」ということになります。

実践の準備

それでは上記のフーローに沿って、命題を証明してみましょう。
今回は自動車購入に関するデータをサンプルに実践してみます。

【問題】
250人の自動車購買者を対象に調査したところ、平均購入額が1,183,000円だった。
また、不偏標準偏差は101,000円。
このことから、平均購入額は1,150,000円より高いと結論付けた。
これが正しい判定かどうかを考えることにする

H1:平均購入額は1,150,000円より高い:μ > 115万円
H0:平均購入額は1,150,000円である:μ = 115万円(有意水準範囲で)

次回の記事で、この問題を解いていきます。
興味のある方は、予めこの問題にチャレンジしてみてください。

勉強会の内容も、少しずつ実践的になってきました。

もちろん、標準偏差が最初から分かっていたり、算出範囲が少ない状態の出題と講習内容に付いていくのに有利な点がそろっていましたが、本来であればゼロベースでこういったものも自分の知恵で解いていかなければならないのでしょう。

いざという時に、習得内容が活かせるようになる ――
それはもう、過去に解いてきた問題数がキモで、場数によって自信に繋がっていくものなのかもしれませんね。

今回は算出は途中で終わってしまいましたが、次回はその続きから。
お楽しみに!

■最新のiPhoneの購入・機種変更なら店頭より得で、予約しやすいオンラインショップ。
機種の頭金や使わないオプションパックをつけて年間何万円も損していませんか?
オンラインショップなら故障のサポートもしっかりしていて最低限の費用。待たされることもありません。
 → ドコモオンラインショップ
 → auオンラインショップ
 → ソフトバンクオンラインショップ

最新のiPhoneを得して乗り換えるなら、
キャッシュバックキャンペーン実施中!【おとくケータイ.net】
がお得です。

以下の記事も読まれています。