Rule of Three

調べ物をしていて、このような法則があることをふと思い出した。

病害虫の発生率がp%以下であるということを95%の信頼度で言うためには、3/p個の対象を調べて病害虫が存在しないことを示せば良い。

この法則はRule of Threeあるいは3の法則と呼ばれている*1

Rule of Threeは医薬品の稀な副作用を調査するという文脈の上で、次のように言われることもある。おそらくこちらの表現の方が有名だろう。

100人調べて1度も観測されなくても別の100人中3人に事象が生起する可能性があり、100 万人調べて0でもなお他の100万人中3人に生起する可能性は否定できない

導出

なんとなく「ポアソン分布から導出できる」みたいなアバウトな覚え方をしていて、いざやってみたら意外と手こずってしまったのでメモしておく。

まず前提条件を整理すると次のようになる。

  • 事象が起こる確率pはすごく小さい(と予想している)
  • 試行回数nは大きい
  • n回の調査で1回も事象は発生しなかった

pは二項分布に従うと考えられるが、pが大きくnが小さい二項分布はnp=\lambdaをパラメータとするポアソン分布で近似できる。ポアソン分布において事象がk回起こる確率は

P(k) = \frac{\lambda^k e^{-\lambda}}{k!}

だが、今回k=0なので、

P(0) = e^{-\lambda}

となる。ここで、\lambdaの上限を考えてみよう。\lambdaが大きくなるほどPは小さくなるだけで\lambdaはいくらでも大きくできることはできる。ただ、あまり小さなPを想定するのは不自然なので、P=0.05に対応する\lambdaあたりを上限としよう。

わざとらしい感じになってしまったが要するに\lambdaの片側95%信頼区間を求めるということだ。

0.05 = e^{-\lambda}

\lambdaについて計算すると、

\lambda = -\ln{0.05} \approx 3

となる。要するに、n回の試行で事象の発生回数が0だったとしても、\lambda=n回の試行における事象の発生回数の期待値の95%信頼区間はほぼ0〜3ということになる。

これが

100 万人調べて0でもなお他の100万人中3人に生起する可能性は否定できない

に対応する。ここでさらにnp=\lambdaとしてnについて整理すると

n = \frac{3}{p}

となり、これが

病害虫の発生率がp%以下であるということを95%の信頼度で言うためには、3/p個の対象を調べて病害虫が存在しないことを示せば良い。

に対応する。

参考

*1:私はこの法則が植物の病害虫調査で実際に利用されている例は見たことがない。住んでいた分野が違うだけかもしれないが