みんな聞いて!データサイエンスの裏side、今日は「HARKING」という、めっちゃやばい研究不正の手法について暴露します!
そもそもHARKINGって?
簡単に言えば、「結果が分かった後で仮説を作る」という、データサイエンスの世界では最悪の行為。まるで、テストの答案を見てから「あ、そうそう、これ僕の最初の予想通りだった!」って言うような感じ。
なぜダメなの?
データの再現性が吹っ飛ぶからです!つまり、今回の結果が「たまたま」のものかもしれない。株取引で言えば、「今回うまくいったロジック」が次は全然使えない、みたいな状況。
じゃあどうすればいいの?
超シンプル!データセットを2つに分けるだけ。
- 探索用データ:自由にデータをいじって洞察を得る
- 検証用データ:最初に立てた仮説を厳密に検証する
機械学習でいう「train/valid」の考え方と同じです。
注意点!
検証用データでの検証は1回限り。何度も検証したらアウト!これはもう、データの「濡れ手で粟」状態です。
現実はどうなの?
正直、マーケティング業界では、この手法でモデルを作って「うまくいかなかったら外部環境のせい」なんてごまかしてる事例、めちゃくちゃ多いです。
結論
データの二度漬けはやめよう!
データには敬意を払え!科学の信頼性は、一人一人の誠実さから生まれるんだから!