まず、統計学の基本のキとして以下の用語がある。
説明で使うので、ざっと流し読みしてね。
母集団とは、1つの集団を構成する全てのメンバーとか要素のこと。
母集団から取り出した一部のこと。
母集団か標本を取り出すこと。具体的には、数えたり、測定したりしてサンプリングしていくよ。
で、ランダム・サンプリング(Random Sampling)って何だ?
ランダムサンプリングとは、どの標本も「選ばれる確率」が同じになるようにサンプリングすることだよ。
ランダムサンプリングをやるときは、母集団のどの要素も選ばれる確率が全く同じになっていなきゃいけない。
すべての要素がランダムに選ばれていれば、標本が母集団をちゃんと代表していると見なせるから便利なんだ。
おかげで、いちいち母集団をぜーんぶ調べなくても済むので、ラクができるわけだ。
じゃあ、どうやったらランダム・サンプリングができるかと言うと、「乱数表」を使う手があるよ。
乱数表(Random Number Tables)の使い方
「乱数表」とはランダムな順番で表された数字の表のことだよ。
こんなやつ↓
乱数はふつう、コンピュータで作ることができる。ちなみに上の乱数表もエクセルで作ったよ。
さて、つぎに乱数表の使ったサンプリングのやり方を見てみよう。
次の5つのステップに従ってサンプリングするよ。
1.これからサンプリングしようとしている母集団を定義しよう。
母集団の例を「A町2丁目3番地の世帯」としよう。「A町2丁目3番地の世帯」に住んでいる皆さんは以下の10世帯だったとするよ。
佐藤さん |
山本さん |
加藤さん |
鈴木さん |
佐々木さん |
須藤さん |
横山さん |
金田さん |
瀬川さん |
諸星さん |
さて、この10世帯に「通し番号」を振ってみよう。
佐藤さん | 0 |
山本さん | 1 |
加藤さん | 2 |
鈴木さん | 3 |
佐々木さん | 4 |
須藤さん | 5 |
横山さん | 6 |
金田さん | 7 |
瀬川さん | 8 |
諸星さん | 9 |
これで母集団の定義はおしまい。
2.サンプリングする個数を決める
上の10世帯の中から5世帯を標本として取り出すことにしよう。
このとき、どうやって5世帯を選ぶかが重要なんだ。
めんどうくさいからって、自分が住んでいる家から近い順に5世帯でいいや、なんて言っちゃいけない。
それじゃあ「作為的」なサンプリングになってしまうからね。意味があるかは分からないけど。
3.目を閉じて、どれでもいいから、乱数表から1つの数字を選ぶ
この手順はちょっとファニーな感じがするね。
鉛筆を転がして決めてもいいよ。
今回は例として「16」が選ばれたとしてみようか。
4.どっちに進むかテキトーに決める
スタート地点は「16」だったね。次に進む方向を決めるよ。
今回は右に進むことにしよう。
5.数字を升目の数字ひろっていく
とりあえず4マス進んだら、以下の数字が取り出せた。
16, 44, 23, 86
重複する数字は要らないので省くと
164238
となるね。
どころで、欲しい数字は5個あればいい。5世帯をサンプリングしたいわけだからね。
だから最後の8は要らないので捨てちゃおう。すると、
16423
となるね。
わかりやすくするために、順番の並び替えをしておこう。
12346
よーし、これで準備はOK。
これに通し番号との対応関係を当てはめると、
山本さん | 1 |
加藤さん | 2 |
鈴木さん | 3 |
佐々木さん | 4 |
横山さん | 6 |
かくして、無作為に5世帯のサンプリングができた。
これが、乱数表を使ったランダム・サンプリングのやり方だ!