統計的因果推論 まとめ①

統計的因果推論 まとめ②

統計的因果推論 まとめ③

統計的因果推論 まとめ④


このまとめは次の2冊の内容を自分なりに解釈しまとめたものである。


---


統計的因果推論の導入として、次の例を考えたい。


風邪薬を開発したE社は、風邪をひいた成人100人に新薬を投与し2日後の回復率を調査したところ、その回復率は90%(100人中90人が回復)であった。E社はこの新薬の風邪薬としての効果を認めた。


果たしてE社はこの新薬の効果を認めてもよいのだろうか。もちろんダメである。E社は回復率90%の要因が新薬“のみ”にあると解釈してしまっている。風邪って普通2日もしたら治ってしまう場合がほとんどではないだろうか。つまり、回復率90%の要因は、風邪薬を飲んだことに加えて時間的要素も絡んでいるだろう。


では次の例ではどうか。


E社は成人200人に新薬を渡し、風邪を引いた日の晩に飲むよう指示した。後日調査したところ、200人とも対象期間中にちょうど1回風邪を引いていたが、実際に指示通り薬を飲んだ人は100人、薬を飲まなかった人は残り100人で、それぞれ風邪を引いた翌日の朝の回復率は薬を飲んだ層が95%、飲まなかった層が70%であった。E社はこの新薬の風邪薬としての効果を認めた。


風邪を引いた日の晩に薬を飲み(あるいは飲まず)、その翌日の朝の回復率を調べていることから、先程の例に比べて信頼性は高そうだ。

本当だろうか。

この例では、薬を飲んだ層と飲まなかった層の選ばれ方がランダムになっていない。薬を飲めと言われていてちゃんと飲んだ人たちが“処置群”に、薬を飲めと言われていたことを忘れちゃうだらしない人たちが“対照群”となっていると考えられる。この場合、処置群の人たちは薬はもちろん飲むし、体を温めて早く寝た人たちなんじゃなかろうか。そうなるとその人たちの風邪の治りがそうでない人達と比べて早いのは当たり前の結果だ。


最後に次の例ではどうだろうか。


E社は成人200人に新薬(ただし半分は偽薬)を渡し、風邪を引いた日の晩に飲むよう指示した。後日調査したところ、200人とも対象期間中にちょうど1回風邪を引いており、全員が指示通り薬を飲んでいた。それぞれ風邪を引いた翌日の朝の回復率は新薬を飲んだ層(100人)が95%、偽薬を飲んだ層(100人)が70%であった。E社はこの新薬の風邪薬としての効果を認めた。


この例では、先の2例のようなバイアスを回避していることに成功しているように思える。これで新薬の効果検証の設計はばっちりだ。

いやいや、もちろんそんなことはなくて、この例でもなお薬を飲んだ層と飲まなかった層の選ばれ方がランダムになっていない。新薬を飲んだ層と偽薬を飲んだ層で年齢・性別・持病の有無などに偏りはなかっただろうか?プラセボ効果の補正を行う必要はないのだろうか?


これまでの例でみたように、たとえ95%と70%という平均値の比較検定の結果が有意であったとしても、その検証の設計や検証方法に不備がある場合、適切に因果を評価することはできない。もちろん新薬と回復との“相関”はどうとでも評価することはできるだろう。ただしここで知りたいのは相関ではなく、あくまで因果だ。新薬が風邪の回復に効果があるかどうか(新薬 → 回復)であって、新薬と風邪の回復との間の相関(新薬 ↔ 回復)ではない。


ここで、教科書的な統計的因果推論の定義を引用しておく。


統計的因果推論(statistical causal inference)
ある事柄(要因)が結果に対して影響を及ぼしているか、及ぼすならばその大きさはどの程度であるかを、統計データに基づいて判断するための考え方、および影響の大きさを評価するための実際の方法論(岩崎)


ある事柄が結果に対して因果であることと、どの程度の因果関係があるのかを定量的に示すことは、古典的な統計学ではしばしば無視されがちである。「相関関係は因果関係を意味しないので注意!」とは言うものの、実のところ知りたいのは「因果関係」だったりしないだろうか。また、「特徴量をとにかくぶちこんで精度は高い(けど説明性は低い)予測モデルができました」といったAI的なアプローチでは、なかなかそのモデルや結果が現場に受け入れられなかったりしないだろうか。

統計的因果推論とは統計学の教科書ではなぜか無視されがちな因果(causality)について、適切に評価し、測定し、検証するための学問分野であると言えよう。

因果が因果であることを適切な方法論に則って定量的に示すことができれば、単なる相関関係の把握を超え適切に原因と結果を理解することができるようになるだろうし、原因と結果の結びつきの強さである因果関係を適切に評価できるようになるだろう。従来の統計学的な知識の範疇を超えて、データサイエンティストとして、因果推論的見地から物事を語れるようになりたいと願う。


コメントを投稿

0 コメント