多重比較問題とは?

複数の検定を行うことが推奨されない理由は、主に「多重比較問題」と呼ばれる統計的な問題に起因します。この問題を簡単に説明すると、たくさんの検定を行うことで、偶然による「偽陽性」(つまり、実際には存在しない差や効果があると誤って結論づけてしまうこと)が増えるというものです。

多重比較問題とは?

多重比較問題(Multiple Comparison Problem)は、複数の統計的検定を行ったときに、偶然によって有意な結果が出やすくなる現象を指します。例えば、1回の検定で誤って有意と判断してしまう確率を「有意水準」と呼び、通常は5%(p < 0.05)に設定します。これを「第一種過誤」とも言います。

しかし、検定を複数回行うと、その分だけ誤って有意と判断する可能性が増えていきます。例えば、10回の独立した検定を行うと、少なくとも1回は偶然により有意な結果が出る確率が約40%にもなります。このように、検定回数が増えると、第一種過誤のリスクが高まるため、結論が信頼できなくなります。

例えで考えてみましょう

たとえば、100回コインを投げて、10回表が出たら「表が出やすい」と結論付けるような検定をしているとします。この検定を1回だけ行えば、通常は表が多く出たか少なく出たかを正しく判断できます。しかし、同じ検定を何度も繰り返すと、たまたま表が多く出たケースが出てくる可能性が高くなります。これが多重比較問題です。

多重比較問題の影響

多重比較問題が影響を及ぼす状況はさまざまです。例えば、以下のようなケースが考えられます:

  • 新薬の効果を複数の症状に対して検定する場合: それぞれの症状に対して個別に検定を行うと、偶然により有意な結果が得られやすくなり、本来の効果を誤って評価してしまうリスクがあります。
  • 遺伝子研究などで多数の検定を行う場合: 数千から数万の遺伝子に対して統計的な検定を行うと、偶然に有意と判断される遺伝子がたくさん出てしまう可能性があります。

多重比較問題への対処法

多重比較問題に対処するためには、いくつかの方法があります。以下に代表的な方法を挙げます。

  • ボンフェローニ補正: 検定の有意水準を検定回数で割ることで、第一種過誤の確率を低減します。例えば、10回の検定を行う場合、通常の有意水準0.05を10で割り、各検定に対して0.005の有意水準を設定します。
  • ホルム補正: ボンフェローニ補正の一種で、より柔軟に誤り率を調整する方法です。
  • False Discovery Rate (FDR)制御: 偽陽性率(第一種過誤率)ではなく、偽発見率(実際に有意でない結果が有意とされる割合)を制御する方法です。大量の検定を行う場合に特に有効です。

まとめと今後の学習の指針

検定を複数行うことが推奨されないのは、多重比較問題があるためです。この問題は、偶然によって誤った結論に達するリスクを増大させるものであり、統計的な信頼性を損なう原因となります。検定を行う際には、これらの問題に留意し、適切な補正方法を用いることが重要です。今後の学習では、各補正方法の具体的な適用方法やそれぞれの利点・欠点についても理解を深めるとよいでしょう。