社内開催の『統計勉強会』に参加してみた④

社内開催の『統計勉強会』に参加してみた④

前回に引き続き、今回も「母平均の差」でした。
<前回のおさらい『社内開催の「統計勉強会」に参加してみた③』>

通常算出に用いられる「student(スチューデント)の推定」や「welch(ウェルチ)の推定」とは異なり、より精度の高い推定方法があるらしいのです。
今回はその推定方法についてご紹介いたします。

対応性のあるデータって?

今回使うデータは『親の身長とその子供の身長』。
そもそも「親の身長が高いのであれば、その子供の身長も自ずと高いのでは?」と考えてしまいますよね。

まず、前回の授業でも使用した式(下の画像)の「x1」と「x2」は平均を使っています。

しかし、対応があるとみなした場合はこの式のとおりではなく、個々に「d」を取っていくイメージとなります。
あとは以下の式に値を当てはめていく形となります。

それでは実際にやってみましょう。
まずは以下のようなデータを用意してみます。

下のようなイメージでで個々の差を「d」とします。

そして式に当てはめる値は以下のとおり。

これを上限・下限でそれぞれ求めていきます。

結果、親と子の身長差は95%の信頼区間において『約1.677~約8.723』となることが分かります。
まあ、親より子供の方が大きくなるということと、その範囲が約1.5cm~9cmということなのでしょうか。

せっかくなので「welchの推定」で解いてみると、一体どんな結果になるのでしょうか?

おや、範囲が大きくなってしまいましたね。
つまり、精度が先のものより悪くなったと言えるでしょう。

センシティブな情報の扱いに関して

日本には家族内に引きこもりがいる家庭は、何世帯ぐらいあるのでしょうか?

本気を出せばこういった情報は調査可能かもしれません。
ただし、いかんせん内容がセンシティブな情報なので、正確に答えてくれない可能性も考えられます。
こういった確実性を欠くデータは、あえて標本調査をするケースもあるといいます。
実態と調査結果とで数値に乖離が表れる場合もあるので、あくまでも “統計” として算出するということですね。

それでは「1200世帯中65世帯に引きこもりがいる家庭がある」というデータを使って推定していきましょう。

まずは確率を算出してみます。

次にこの確率を使って、上限・下限を求めます。

この結果、95%の信頼区間において『約4%~約6.7%』となりました。
およそ4%~約6.7%、引きこもりの家族がいる世帯がいるのではないか……ということですね。

次回はなんと……検定……かも

今回は使う式の大筋が前回のおさらいを兼ねていたため、そこまでは大変ではありませんでした。
ただ、次回からまた異なる内容になる予感……。

さらに気を引き締める必要がありそうですね。

コメント