【データサイエンス界の闇】HARKING:データの「二度漬け」が危険すぎる理由

みんな聞いて!データサイエンスの裏side、今日は「HARKING」という、めっちゃやばい研究不正の手法について暴露します!

そもそもHARKINGって?

簡単に言えば、「結果が分かった後で仮説を作る」という、データサイエンスの世界では最悪の行為。まるで、テストの答案を見てから「あ、そうそう、これ僕の最初の予想通りだった!」って言うような感じ。

なぜダメなの?

データの再現性が吹っ飛ぶからです!つまり、今回の結果が「たまたま」のものかもしれない。株取引で言えば、「今回うまくいったロジック」が次は全然使えない、みたいな状況。

じゃあどうすればいいの?

超シンプル!データセットを2つに分けるだけ。

  1. 探索用データ:自由にデータをいじって洞察を得る
  2. 検証用データ:最初に立てた仮説を厳密に検証する

機械学習でいう「train/valid」の考え方と同じです。

注意点!

検証用データでの検証は1回限り。何度も検証したらアウト!これはもう、データの「濡れ手で粟」状態です。

現実はどうなの?

正直、マーケティング業界では、この手法でモデルを作って「うまくいかなかったら外部環境のせい」なんてごまかしてる事例、めちゃくちゃ多いです。

結論

データの二度漬けはやめよう!

データには敬意を払え!科学の信頼性は、一人一人の誠実さから生まれるんだから!