シンプソンのパラドックス(Simpson's paradox)とは
主にデータをいくつかのグループ(層)に分割した表において、グループ間に見られる相関関係が「全体でも成り立つだろう」と直感的には推測されます。
しかし、場合によっては、実際にデータ全体に見られる相関関係がグループ間に見られる相関関係とは一致しない、あるいは逆になってしまうことがあります。
層別解析時には見られた相関が、全体としては見られない、ということです。
これをシンプソンのパラドックスと呼びます。
原因としてよくあるのは、各グループの個体数(サンプルサイズ)が大きく異なるため、というものです。
特に表データでグループ間に見られる相関関係をみて、そこから結論や考察をひねり出そうとする際には、シンプソンのパラドックスに注意する必要があります。
シンプソンのパラドックスの歴史
このシンプソンのパラドックスは、1951年に発表された統計学者のEdward H. Simpson(エドワード・シンプソン)氏による論文で最初に提示されました。
その約20年後に、1972年に統計学者のColin R. Blyth(コリン・ブライス)氏による論文「On Simpson's Paradox and the Sure-Thing Principle」で命名されました。
同様の現象については、1900年前後に統計学者のKarl Pearson(カール・ピアソン)氏やUdny Yule(ウドニー・ユール)氏なども観察しています。
そのため、ユール゠シンプソン効果(Yule–Simpson effect)などと呼ばれることもあります。
シンプソンのパラドックスの具体例
例えば、治療薬Aと治療薬Bで、とある検査項目のスコアを測り、平均値を比較する場合を考えてみます。
各群のサンプル数は100で、100人全体での平均スコアは77.56と82.44であり、治療薬Bの方が平均スコアが5ほど高い結果でした。
サンプル数 | 100人全体の平均スコア | |
治療薬A | n = 100 | 77.56 |
治療薬B | n = 100 | 82.44 |
ところが、男性と女性に分けて平均スコアを計算してみると、下表のようになりました。
男性、女性ともに、治療薬Aのグループの方が平均スコアがいずれも4ほど高い、という結果です。
全体としては治療薬Bの方が平均スコアが高く見えたのに、男女別に分けてみると、治療薬Aの方がスコアが高いという現象が起きました。
これがシンプソンのパラドックスです。
サンプル数 | 100人全体の平均スコア | 男性の平均スコア | 女性の平均スコア | |
治療薬A | n = 100 | 77.56 | 91 | 67 |
治療薬B | n = 100 | 82.44 | 87 | 63 |
カラクリは、男女の構成が、治療薬A群と治療薬B群で大きく異なっているというところにあります。
サンプル数 | 100人全体の平均スコア | 男性の平均スコア | 女性の平均スコア | |
治療薬A | n = 100 | 77.56 | 91 (n=44) | 69 (n=56) |
治療薬B | n = 100 | 82.44 | 87 (n=81) | 63 (n=19) |
こうならないように、群間比較を行う際には各グループに割り付けられる被験者の背景因子(人種、年齢、性別、合併症、重症度など)を揃えておくのが一般的です。
今回はわかりやすく性別で層別して「男性と女性は分けて考えた方がよさそうだ」とわかりましたが、何で層別すると良いかわからないということもあります。
手当たり次第に層別すると、今度は別の問題(多重性の問題、数打ちゃ当たる問題)が発生しかねませんので、理論的背景も含めてむやみやたらに層別解析を行わないことも大切です。
単なる重みづけ平均ではありますが、実務上厄介な問題でもあります。解析に関わる方や、結果を解釈する方は頭の片隅にでもおいておくとよいでしょう。