ポアソン分布での効果検証

この記事ではポアソン分布と考えられる事象に対する何らかの介入の効果検証について、三つのアプローチを解説していきます。

ポアソン分布とは

そもそもポアソン分布とは「一定時間に事象が起こる回数」を表す分布です。例えば以下のようなものです。

  • ある交差点で1週間に起こる事故の件数
  • あるWebサイト上での一日の間に発生するコンバージョン数
  • 等々

もし、似たような二つの交差点の事故件数を比較したいとか、一つの交差点において標識設置により件数が減少したかといったことを評価したい場合、事故の件数はポアソン分布に従うというモデリングから行うことになります。

一旦「ポアソン分布である」ということに納得できれば、その分布はラムダという一つのパラメータで特徴付けることができます。従って、ポアソン分布から得られたデータを比較するには、ラムダを用いることになります。

三つのアプローチ

ポアソン分布の前後比較や類似データの比較には以下のようなアプローチがあります。

  • 単純比較:平均値を比較する。
  • 頻度論アプローチ:データの合計値または平均値が正規分布に従うとして仮説検定や信頼区間の構築を行う。
  • ベイズ統計アプローチ:事前分布を仮定して、事後分布の統計的性質を調べる。

課題としてはシンプルですが、どの手法で報告するかは受け手の要望やリテラシーを考慮して決定する必要があります。この記事では数値例を挙げてそれぞれの利点や欠点を検討します。

以下では次の例題でそれぞれのアプローチを見ていきます。ただし、ここではポアソン分布の十分統計量である合計値をデータとして与えています。以下の議論では十分統計量だけで議論できているのを見ると「十分」の意味がわかるかと思います。

「ある交差点での道路標識設置による事故件数の低下効果を確認したい。収集したデータは週単位の事故件数で80週間分ある。内訳は、前半の40週間は標識設置前で事故件数は合計78件、後半の40週間の標識設置後の事故件数は60件とする。前半40週間に対して、後半の40週間は事故が減ったと言えるか。」

単純平均の比較

まず、最も簡便な方法として単純平均を比較するというものがあります。これで良い理論的な裏付けとしては、ポアソン分布のラムダは平均値が「最も尤もらしい(もっともらしい)」推定値、つまり最尤推定値であるところです。

上記の課題に対しては以下のように計算することで、平均の事故件数が1.95件から後半が1.5件に減っていて標識の効果があったと言えそうです。

  • 前半:78 / 40 = 1.95 [件/週]
  • 後半:60 / 40 = 1.50 [件/週]

一方で、確率的に得られるデータは一般的にサンプルサイズが小さいとばらつきが大きくなります。つまり、データから推定されたラムダの差はたまたま生じたものだったかもしれないと懸念されます。そこが気になる場合は次の頻度論的アプローチが用いられます。

頻度論的アプローチ

ポアソン分布に対する頻度論的アプローチは、サンプルサイズと平均値を用いて推定値にどれだけのばらつきが生じ得るのかを考慮する手法です。

ポアソン分布(だけでなくどんな分布でも)は中心極限の定理により、合計値は正規分布に近似できるので、サンプルサイズが十分あるとした上で正規分布の近似を利用した仮説検定を行うことで、計算されたラムダの差が、本当は変化がないにも関わらず生じるばらつきの範囲内なのか、ばらつき以上の差と言えるのかということを評価できます。

上記の課題に対しては、データはポアソン分布により確率的に決まると考えるなら「n = 40週間分のデータなら、合計値は正規分布N(nλ, nλ)に従うとして良さそうだ」と考えて次のような標準化した変数が正規分布のどこに位置するかを見ることになります。

\(z=\frac{X – nλ}{\sqrt{nλ}} = \frac{\frac{X}{n} – λ}{\sqrt{\frac{λ}{n}}}\)

ラムダに前半の平均値である1.95、Xに後半の合計値60、nにサンプルサイズ40をそれぞれ代入すると、zは-2.03となり標準正規分布の累積確率ではおよそ2%に相当します。結果、標識設置による変化がないとしたら2%しか起こり得ない珍しい事象だ。ということは、事故件数が減ったと言って良いだろうとなるわけです。

ただしこれは、データ生成はポアソン分布だけどサンプルサイズが大きいので合計値は正規分布に近似できるという前提があります。ではサンプルが少なかったらその近似は成り立つのか?みたいなことは分析者としてはあまり突っ込んでほしくないところです。なぜなら、あくまで近似が成り立つことを受け入れているだけで、収束性がどうのこうのとは考えていないことが多いからです。逆にサンプルサイズを大きくすれば、同時独立な確率変数の合計値の分散の性質によって、とりあえず有意差に持っていけるという欠陥もあります。

分析者の立場ではサンプルサイズは分析前に決められると良いのですが、ビジネスの現場では難しい場合も多々あります。そのため、サンプルサイズの調整で結果が変わるのは都合が悪そうです。

ベイズ統計アプローチ

ベイズ統計アプローチは、事前分布と事後分布を用いてデータを解析する方法です。専門的な知識を事前分布に考慮することができる上に、事後分布としてラムダを分布で推定できるので、介入前後に差があるとしたらどれくらい量でどの程度信用できるのかといった議論ができます。

上記の課題に対しては、介入前のラムダの事前分布を平均が2(≒1.95、見やすくしているだけです)となるようなガンマ分布Gamma(2,1)であるとすると、下つきの1が介入前、2が介入後だとして、ベイズの公式によりラムダの事後分布は、

\(λ_{1} | X_{1} 〜 gamma(2 + 78, 1 + 40) = gamma(79, 41)\)

\(λ_{2} | X_{2} 〜 gamma(79 + 60, 41 + 40) = gamma(139, 81)\)

となり、ここから事後分布の平均値によって推定するのも良いし、分布の重なりを見て結果がどのくらい信用できるか議論することもできます。

平均値を見ると、介入前には1.93で介入後には1.72となり事故件数は減っていると言えそうです。また、確率的に変動する平均件数ではなく、減ったかどうかだけを知りたければ例えば以下のようなものを計算します。

\(P(λ_{1} > λ_{2} | X_{1}, X_{2})\)

計算すると0.79なので、介入前後で0.79ぐらいの確信度合いで事故件数が減ったと言えます。

Rで計算するならこんな感じです。

> theta1.mc <- rgamma(10000, 79, 41)
> mean(theta1.mc)
[1] 1.929315
> theta2.mc <- rgamma(10000, 139, 81)
> mean(theta2.mc)
[1] 1.716717
> mean(theta1.mc > theta2.mc)
[1] 0.795

ベイズ統計アプローチへの批判としては主観が入り過ぎるといったものがあります。そのため、仮定(≒主観)が妥当かは非常に重要です。頻度論とは異なり、処理の中で近似できるかできないかというのがないので見通しが良いです。だからこそ仮定への納得感が重要で、事前分布や標本モデルにどんな分布を仮定するか、その仮定を正当化できるロジックが成り立つのかなどは分析者として用意しておくことになります。

また、頻度論では2%、ベイズでは0.79と結論で出てくる数値から受ける印象が異なるかと思います。そもそも違う種類の数値を比べることに意味はないのですが、あえて言うなら前者は介入前後のデータを1:40の重みで見ているのに対して、後者は40:40で見ている違いと言えるでしょうか。

結論

効果検証などでポアソン分布に従う二つの群の差を調べる際には、どの手法を用いるかは具体的な研究目的やデータの特性、分析者の専門知識などに依存します。単純平均の比較は簡便で迅速ですが、統計的な有意性を判断するには限界があります。頻度論的アプローチは標準的な検定手法を提供し、客観的な結論を導き出しますが、計算や解釈が複雑になることがあります。ベイズ統計アプローチは柔軟で直感的な解釈が可能ですが、計算の複雑性と事前分布の影響を考慮する必要があります。

個人的にはベイズ統計アプローチが最も洗練されていると思います。なぜなら、前提や仮定ははじめに確定してサンプルサイズは関係なしにポアソン分布はそのままポアソン分布として扱うことができるので非常に見通しが良いからです。ただ一方で、報告を受ける側からしてみれば結論が変わらないのであれば頻度論的アプローチで十分かもしれません。

コメントを残す

メールアドレスが公開されることはありません。必須項目には印がついています *