母数、母集団

gaccoというサービスのトライアルを始めた。研修に導入するかを判断したいそうで、内容をフィードバックすることを条件に、好きな講座を受講して良いという。「SQL入門」が最も気になった(それ以外は改めて『入門講座』を学ぶ必要はないかなという感じ)のだが、既に別の人がSQL入門を受講する予定ということで、代わりに「統計学入門」を受講することにした。

半分自分のため、半分業務都合ということで、時間外に受講しても時間内に受講しても良いということだそうだ。定時内は他の仕事でバタバタ忙しいので定時外にやっているのだが、少し暗い残業つけても良いかしら、と思っているところである。


「統計学入門」だが、統計学は大学でも学んだし、入社1年目に一通り学びなおしたし、ざっと知識はあるはずだが、例えば「仮説検定」なんかは自信がないので、動画解説と演習がセットいなっているgaccoでこの機会にまた学びなおしている。かなり要点が絞られているので情報に枝葉がなくて良いなと思った。例えば本で学ぼうとすると細かい言葉の定義がたくさん載っていてしんどいし、大学での講義は数式ばっかりでこれもまたしんどかった記憶がある。実務で使う程度のことを、ぱっと学ぶのには良いのではないかと感じた。


「母数」とか「母集団」とかいう言葉がある。日常会話で使う分には良いが、統計学的な文脈で使うなら、定義に則って、正確に使ってほしい。

就活イベントを企画していたときのことだ。イベントに参加してくれる人の数を増やすための施策について皆でディスカッションしていたのだが、「母数を増やすにはどうしよう」とか「母集団を大きくする必要があるよね」なんて乱用されていたものだった。ちょっと待って、その言葉の使い方おかしいよ!、と指摘したかったが、話題を遮ってまで主張することでもないので、一人心のなかでモヤモヤしていたのだった。

「分母の数」的な意味で使いたいんでしょ?それなら母数や母集団は誤りだ。

まず、母数とは「パラメータ」のことだ。パラメータとは確率分布を決定するものなので、例えば正規分布であれば平均と分散だし、ポアソン分布であればλだ。平均と分散が決まれば正規分布の形は決まる。その分布の性質を表す値のことを母数・パラメータと呼ぶ。

母集団は「サンプルをとってくる前の元の集合全体」のことだ。先の就活イベントの例で言えば母集団は「日本の(あるいは世界の)就活生」である。あるいは「就活イベントに参加してくれた人」を母集団とし、その内の「その後当社への入社を志望する人」について議論をしているのであれば、母集団を大きくする方法についても(なんだか腑に落ちない使い方ではあるが)できそうだ。母集団を大きくするって、何だか哲学的だ。


他にも、70%から75%に上がったことを「5%上がった!」とかって表現する人がいる。これは誤りだ。5%上がるというのは1.05倍になるということなので、70が73.5になることをいう。1000人中700人が高評価としたA製品を改良した結果、1000人中750人が高評価としてくれるようになったとしよう。高評価率としては70%から75%に変化しているが、700人から750人への変化は7.14%の増加だ。「5ポイント上がった!」であれば誤解がない。


コメントを投稿

0 コメント