ここでは、研究不正の手法としてHARKING、いわゆるデータの二度漬けについて、なぜそれがダメで、ではどうすれば良いのかを解説します。
はじめに
統計学はデータに基づいて現象を解明する強力なツールですが、不適切な手法によってその信頼性が損なわれることがあります。特に問題となるのが、HARKING(Hypothesizing After the Results are Known)やp-hackingといった手法です。これらは研究結果を意図的ではなくとも誤った方向に導いてしまう危険性があります。本記事ではHARKINGについて詳しく解説します。p-hackingについては別記事で取り上げる予定です。
HARKINGとは何か
HARKINGとは、「結果が分かった後で仮説を立てる」行為を指します。通常、科学的な研究プロセスでは、まず仮説を立て、その検証のためにデータを収集・分析するという順序を踏みます。しかしHARKINGでは、研究者がデータを分析して興味深い結果や相関関係を発見した後で、あたかもそれを予測していたかのように仮説を後付けで構築し、当初から計画していたように報告するのです。
データサイエンスの世界では、EDA(Exploratory Data Analysis:探索的データ分析)という手法があります。これは明確な仮説を立てずにデータを探索的に分析して洞察を得るアプローチです。この手法自体は有効ですが、問題はEDAに使ったのと同じデータセットを用いて仮説検証したと主張する論文を書くことです。これがまさにHARKINGに該当します。
なぜHARKINGが問題なのか
HARKINGの最大の問題点は、再現性の欠如にあります。EDAで見つけた「発見」は、そのデータセット特有の偶然のパターンかもしれないのです。機械学習の用語を使えば、これは意味のないノイズをモデルに取り込んでしまう「過学習(オーバーフィッティング)」に相当します。
科学研究における再現性の欠如は、単なる時間の無駄にとどまりません。それは:
- 信頼できない知見が科学の基盤に混入すること
- そうした不確かな結果に基づいた後続研究が無駄になること
- 政策立案やビジネス決定など、社会的影響をもたらす判断の誤りにつながること
実務的な例で考えてみましょう。株式投資のテクニカル分析で「過去データ(バックテスト)で完璧に動く手法を発見した!」と思っても、実際の将来データ(フォワードテスト)では全く機能しないことがよくあります。これはまさにHARKINGによる過学習の典型例です。
正しいアプローチ:データの分割
HARKINGを避けるための基本原則は単純です:データセットを二つに分けることです。
- 探索用データセット:自由に探索的分析を行い、パターンを発見し、仮説を構築するためのデータ
- 検証用データセット:探索段階で立てた仮説を厳密に検証するためのデータ
これは機械学習における訓練データ(training data)と検証データ(validation data)の分割と同じ考え方です。重要なのは、EDAを始める前にデータを分割しておくことです。もし先にEDAを行ってしまった場合は、仮説検証には完全に新しいデータセットが必要になります。
探索用データから導いた仮説が検証用データでも確認できなければ、その仮説は偶然の産物だったと考え、潔く棄却すべきです。
注意点:繰り返し検証の罠
見落としがちな重要な点として、検証用データは一度しか使えないということがあります。もし検証用データで仮説が否定された後、仮説を微調整して同じ検証用データで再度検証するというプロセスを繰り返すと、それもまたHARKINGの一種になってしまいます。これは検証データに対する過学習となり、当初の分割の意味が失われてしまうのです。
真に厳密な検証を行うためには、各仮説に対して新鮮な検証データを用意するか、最初から複数の仮説と検証方法を事前登録(preregistration)しておく必要があります。
査読プロセスでの課題
「Science Fictions」などの書籍でも指摘されているように、研究者が後付けで仮説を立てたことを明示しない場合、査読者は提出された論文の前提をそのまま受け入れる傾向があります。そのため査読プロセスでHARKINGを見抜くことは困難です。
特に巧妙なケースとして、表面上は訓練データと検証データを分けて適切に仮説構築・検証を行っているように見えても、実際には検証データに対して何度も仮説の微調整と再検証を繰り返していた場合、それはHARKINGの一種と言えます。
この問題はアカデミックな研究だけでなく、ビジネス現場での機械学習モデル開発においても頻繁に見られます。マーケティングや金融モデルなどでは、モデルが本番環境でうまく機能しない場合に「外部環境の変化」のせいにして、モデル自体の過学習問題から目を背けることがあります。
しかし、再現性への関心の高まりとともに、こうした問題への認識も広がりつつあります。事前登録や分析計画の公開といった対策も徐々に普及し始めています。
結論
データの二度漬け(HARKINGおよび関連する不適切な手法)は、科学の信頼性を損ない、社会にも悪影響を及ぼす可能性があります。正しい研究アプローチとしては:
- データセットを探索用と検証用に明確に分割する
- 仮説は探索用データのみを使って構築する
- 検証用データは一度だけ使用し、結果が期待通りでなくても受け入れる
- 可能であれば研究計画を事前登録する
これらの原則を守ることで、より信頼性の高い研究結果を得ることができるでしょう。データ分析に携わるすべての人が、この問題の重要性を認識し、適切な手法を実践することが望まれます。