統計のお話し
【絶対数(真の値)と統計精度と検査精度】
【統計の基本的な考え方】
例えばですが、
『ある池』の中に『魚が何匹いるか』調べたいとき全ての魚を捕獲して数を調べると大変ですよね。
そこで、『100匹』捕獲し目印を付け池に戻します。
数日経ち均一に混ざった頃(同じような気温、風、時間、場所で)再度『100匹』捕獲し、『目印がついた魚の数』を数えます。
このとき目印を付けた『2匹』であれば、池の魚の数は
100:2=全体の数:100(全体の内100匹と、100の内2匹の比が等しい)
となり、
10,000÷2=5,000(匹)
が、おおよそ全体の数となります。
【統計精度】
※ここでは統計精度のお話し
ただし、2匹というのがどの程度の確率なのかを考慮する必要があります。
例えば、再度捕獲したときに『1匹』であった場合、池の魚の数は10,000匹となりますし、『3匹』であれば3,300匹程度となります。
そこで繰返性(再現性)を考えます。
例えば100匹捕獲と放流と再捕獲を10回繰り返したとします。
このときに
1匹・・・1回
2匹・・・2回
3匹・・・5回
4匹・・・2回
となったのあれば、『3匹』である可能性が最も高い事になりますので、3,300匹程度ではないか?と予測がつきます。
仮に、100匹捕獲し数回0が続くのであれば、母数に対しサンプリング数が足りない事になりますし、
極端な例ですが
0匹・・・1回
1匹・・・1回
2匹・・・2回
3匹・・・1回
4匹・・・2回
5匹・・・1回
6匹・・・2回
となった場合、何匹で計算したらいいかわからないので、回数を増やす必要があります。
※ごくまれに、都合のいい数字を引っ張ってきていないか?と感じるデータもありますが
ここで考えておきたいのが、統計や確率では、調べたいものが何かという事から検証方法を決める必要があるという事です。
つまり、『調べたい対象は何か』と『検証の目的』をしっかりする必要があるという事です。
ここでは、『調べたい』のは『この池』の『魚の数』となります。
例えば、全体数が把握出来ていて年齢層等の『分布』を知りたいのであれば、1回のサンプリング調査でだいたいの『分布』はわかりますし、全体数を知りたい場合や精度が求められる場合には、ヒストグラムが正規分布するまで回数を増やす、必要があります。
【統計精度の悪化要因】
例えば
ある病気があったとして、日本全体でのその病気人数を知りたいとした場合
◎症状が出ている(感染の疑いがある)人達を対象に検査
◎無症状の人達を対象に検査
◎似たような地域(数か所)毎に無作為に選出して検査
して、人数が分かれば、それを130,000,000人(1億3000万人)にあてはめれば、日本の感染者数がざっくりですがわかるかと思います。
(無作為に選出したものをあてはめます)
※症状が出ている人or無症状の人達への検査は別の目的になります。
では、統計精度の悪化要因になるのが何か?ですが、この場合は異常値の存在ですね。
例えば各地域毎無作為に200人を検査したとき
A地域: 0人
B地域: 0人
C地域: 0人
D地域: 0人
E地域: 1人
F地域: 0人
G地域: 0人
H地域: 32人
I地域: 0人
J地域: 0人
K地域: 0人
となったとします。
このとき、
11地域2,200人あたり陽性者数33人(1.50%)で計算するのか
10地域(H地域除く)2,000人あたり陽性者1人(0.05%)で計算するのか
で大きく異なります。
日本の人口が130,000,000人(1億3000万人)として
1.50%:1,950,000人(195万人)
0.05%:65,000人
なので統計ではH地域の32人は例外(エラー)として除外します。
統計と統計精度のお話しはここで終わります。
検査精度や絶対数のお話しはまた別途お話しさせてもらおうかと思います。
ではでは