江崎貴裕『分析者のためのデータ解釈学入門 データの本質をとらえる技術』を読み終わった。
最近ずっとAmazonのオススメに出てきていて、気になっていたので、会社の経費で買って読んでみることにした。
「データ解釈学入門」と銘打たれてはいるが、実際にはデータの解釈だけでなく、データ収集やデータ分析、結果の解釈、運用上の注意点等、データ分析とその前後におけるあらゆる知識が網羅的に整理されている本であった。
また「入門」とタイトルにある通り、限りなく平易に書かれ方(ただし、記述はとても正確)で各項目のエッセンスが記されているため、読み物としてもさっと読み切ることができるし、実用書としても読み込めば読み込むほど味わい深い一冊だと言える。
データ分析に携わる人は、是非一読されると良い。
いくつか、改めて「これは大事だな」と思った点や、「これは知らなかったぞ」という点を、以下にまとめておく。
【ランダム誤差】
- 各試行の計測結果にはランダム誤差が含まれる。
- ランダム誤差は複数の観測値を平均することで平均0の分布を仮定することができ、標本平均のばらつき(標準偏差)を1/√n倍に小さくすることができる。逆に、ばらつきを10分の1に抑えるためには、最低でも100回の計測が必要となる。
- これは大数の法則による。大数の法則は正規分布に限らず、有限の分散を持つ任意の確率分布*で成立する。
- 十分な数の観測が行えない場合は、適切な分散を仮定した分布を用いて、統計的に評価する(仮説検定)。または十分なデータのある別の指標で代替する(投手を評価するために、勝利数ではなく奪三振数を使う、等)
* 記述がとても正確であるとは、まさにこの箇所で感じたことである。とてもしびれた。普通の入門書であれば「標本平均のばらつきは √n分の1 になります」といった程度でしか書かれないだろう。本書は、その理由が大数の法則にあることまで説明しており、さらに「任意の確率分布で成り立ちます」ではなく「有限の分散を持つ任意の確率分布で成り立ちます」と非常に正確に記述されている。
【セレクションバイアス】
- 測定基準によるバイアス
- 国ごとに「弁護士」の定義が異なる(諸外国では弁理士、税理士、司法書士等も「弁護士」に含まれる)ため、日本と他国の人口あたり弁護士数を純粋に比較することはできない。
- 選択バイアス(全体に対しごく一部のデータしか取得できないことによるバイアス)
- 生存者バイアス:『ビジョナリー・カンパニー』はたまたまその時うまくいっている会社の共通点を述べただけ。
- サンプリングバイアス:学生を被験者とした実験、志願者のみを被験者とした実験、自社の既存顧客のみを対象としたアンケート等では、それらの結果が一般の人に当てはまらない。 また「〇〇新聞の調査ですが〜」と初めに明示する場合、〇〇新聞に否定的な人は回答に応じてくれにくい。
- 観測介入に起因するバイアス(アンケート調査時に注意)
- 「その他」の選択肢は選ばれにくく、存在する選択肢の中から選んでしまう
- 「はい/いいえ」には肯定的な選択肢を答えやすい
- 「どちらともいえない」や「やや同意できる/やや同意できない」等、真ん中の選択肢が選ばれやすい
- 前の質問への回答が、次の質問に影響してしまう
- 質問前半の余計な情報(近年、データ分析の需要が高まっていますが、貴社ではどれくらいデータ分析に関心がありますか?)に回答が影響されてしまう
- (「あなたは不正に関与していますか?」等に対し、)後ろめたさのある回答は得られにくい(ランダム回答法により実際の割合を推定可能)
- (商品購買時など)理由はなくても適当に理由づけしてしまう
- 質問や実験に参加していること自体がなんらかの効果をもたらしてしまう(ホーソン効果、エンゲージメントを調査されていること自体によって「会社や上司が労働環境を高めようとしてくれている」と思ってしまう)
【ランダム化比較試験(RCT)】
- RCT(ランダム化比較試験)とは
- 被験者を処置群と対照群にランダムに割り付けること
- RCTができない場合・できなかった場合
- 重回帰分析やロジスティック回帰により変数ごとの影響量を評価する
- 回帰不連続デザイン(RDD)を用いる
- 傾向スコアマッチングを用いる
【相関係数の罠】
- 次のような場合は相関係数を信用してはいけない。
- 外れ値がある場合
- 複数の集団が混ざっている場合
- 線形でない関係が見られる場合
- 相関を調べる前に、まずは散布図を描くべき。
- たまたま相関係数の値が大きくなってしまうこともある。「本当は相関がないのに、たまたまデータから算出される相関係数の値が発生する確率」をp値として検定を行う無相関検定も実施してみると良い。
【検定の多重性】
- 有意水準をα=0.05 として検定を行うことは「20回に1回以下の頻度でしか起きないようなこと」は起きていないことを調べることと解釈できる。
- たくさんの変数間で相関を調べる(seabornのpairplot関数、等)ような場合、1回の試行では5%でしか生じない現象も、試行を10回繰り返すことで約40%の確率で1回は生じてしまう。仮説検定を繰り返した結果、「たまたま」が発生してしまう問題を検定の多重性(ファミリーワイズエラー)と呼ぶ。
- 多重性の補正方法
- Bonferroni法
- Holm法
【「内挿」と「外挿」】
- (ほとんどの)数理モデルでは、存在するデータとモデルが整合するようにパラメータを調整するが、データが存在しない部分については(ほとんどの場合)考慮されず、その領域についてのモデルの精度も保証されない。
- 内挿:データが存在する領域において予測を行うこと
- 外挿:データが存在しない領域において予測を行うこと
【最小二乗法の注意点】
- 回帰分析のパラメータ(係数)算出の際に使用される最小二乗法は、各観測値に同じ誤差の分布を仮定している。
- そのため、サンプルサイズの大きい標本から計算された平均値とそうでない平均値のように、ばらつきの仮定が異なるものが混ざっているとうまく働かない。
- そのような場合は、サンプルサイズの小さい指標は取り除いたり、重み付けした最小二乗法を用いたりして対処する。
【分析結果の信頼性(Hillの基準)】
- 頑健性 : 要因による結果の影響が十分に大きいこと
- 一貫性 : 様々なサンプルを用いても同じ結果が得られること
- 特異性 : 特定の要因からのみ結果に影響していること
- 時間性 : 要因が結果よりも時間的に前に起きていること
- 用量反応関係: 要因の程度に応じて結果への影響も変化すること
- 妥当性 : 関連性を支持する論理的な解釈が可能であること
- 整合性 : 既知の事実と矛盾しないこと
- 実験の有無 : 介入を行う実験的研究によって関連性が支持されていること
- 類似性 : 別の似た関連性からメカニズムを想定できること
---
リーディングリスト(2021年)_20211205
読み終わった本
- テッド・チャン『息吹』
- 楠木建『ストーリーとしての競争戦略』
- ジョアン・マグレッタ『マイケル・ポーターの競争戦略〔エッセンシャル版〕』
- デイビッド・ローワン『DISRUPTORS 反逆の戦略者』
- カール・B・フレイ『テクノロジーの世界経済史 ビル・ゲイツのパラドックス』
- 加藤雅則『両利きの組織をつくる』
- マーク・ジェフリー『データ・ドリブン・マーケティング』
- 山口雄大『この1冊ですべてわかる 需要予測の基本』
- 石川和幸『この1冊ですべてわかる 在庫マネジメントの基本』
- 梅谷俊治『しっかり学ぶ数理最適化 モデルからアルゴリズムまで』
- Judea Pearl『入門 統計的因果推論』
- 岩崎学『統計的因果推論 (統計解析スタンダード)』
- 安井翔太『効果検証入門』
- 江崎貴裕『分析者のためのデータ解釈学入門 データの本質をとらえる技術』
- 榎本幹郎『音楽が未来を連れてくる』
- 石野雄一『実況!ビジネス力養成講義 ファイナンス』
- 尾原和啓『プロセスエコノミー あなたの物語が価値になる』
- 森川潤『グリーン・ジャイアント 脱炭素ビジネスが世界経済を動かす』
- 藤田聡『眠れなくなるほど面白い たんぱく質の話』
- 別所栄吾『「お前の言うことはわけがわからん!」と言わせないロジカルな話し方超入門』
- 堀田はるな『子どもの才能を伸ばす最高の方法モンテッソーリ・メソッド』
- 『徹底攻略 ディープラーニングG検定 ジェネラリスト問題集』
- 『応用情報技術者合格教本』
読んでいる本・読もうとしている本
- ダン・アリエリー『予想どおりに不合理』
- マルク・レビンソン『The BOX コンテナ物語』
- リード・ヘイスティングス『NO RULES 世界一「自由」な会社、NETFLIX』
- 斎藤康毅『ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装』
- AI/Data Science実務選書『AIソフトウェアのテスト――答のない答え合わせ [4つの手法]』
0 コメント