エビデンス全般 ビジネス全般 ビッグデータ 統計学

臨床研究における因果推論:傾向スコア・マッチングと操作変数法の徹底解説

2025年8月8日

臨床研究の核心的な目標の一つは、ある治療や介入が、患者さんの健康状態、すなわちアウトカムにどのような影響を及ぼすのか、その因果関係を明らかにすることです。もし、研究者が介入方法を自由に決めることができる「ランダム化比較試験(RCT)」を実施できるのであれば、因果関係の探求は比較的容易になります。なぜなら、くじ引きのようにランダムに患者さんを治療群と対照群に割り付けることで、両群の背景特性が平均的に等しくなり、結果の違いは治療の効果であると結論付けやすくなるからです。

しかし、倫理的な問題や費用の制約、あるいは現実的な困難さから、全ての研究でランダム化比較試験が実施できるわけではありません。そこで我々が頼ることになるのが、日常診療で得られるような「観察研究」のデータです。観察研究では、治療の選択は医師の判断や患者さんの状態など、様々な要因に基づいて行われます。ここに、因果推論における最大の障壁である「交絡」という問題が生じます。

交絡とは、調べたい原因(治療)と結果(アウトカム)の両方に関係し、その二つの見かけ上の関連性を歪めてしまう第三の因子のことです 1。例えば、「コーヒーを飲む人は心筋梗塞になりやすい」という関連が見られたとします。しかし、この関連は本当にコーヒーが原因なのでしょうか。よく調べてみると、「喫煙者にはコーヒーをよく飲む人が多い」そして「喫煙は心筋梗塞のリスクを高める」という事実があるかもしれません。この場合、「喫煙」という交絡因子が、コーヒーと心筋梗塞の間に見かけ上の関連を生み出しているだけで、コーヒー自体に原因はない可能性が考えられます 3。このように、交絡因子を適切に処理しなければ、治療効果を誤って評価してしまう危険性があるのです。

この深刻な問題に対処するため、統計学の世界では数多くの高度な手法が開発されてきました。本稿では、その中でも特に重要かつ広く用いられている二つの手法、「傾向スコア・マッチング」と「操作変数法」について解説します。

傾向スコア・マッチングは、観察された様々な患者背景(共変量)を統合し、あたかもランダム化比較試験を行ったかのように、治療群と対照群の背景特性が似通った集団を作り出すことを目指す手法です 5。一方、操作変数法は全く異なる発想に基づきます。この手法は、データの中に存在する「自然の実験」とも言えるような、偶然性の高い現象を利用することで、測定されているか否かにかかわらず、あらゆる交絡因子の影響を取り除こうと試みる、非常に強力なアプローチです 7

この記事を通じて、私たちはまず傾向スコア・マッチングの仕組みを、その心臓部である「傾向スコア」の概念から具体的な手順、そして限界に至るまで詳しく見ていきます。次に、操作変数法という少し難解に聞こえるかもしれませんが、その強力な原理と適用方法を、具体的な臨床例を交えながら解き明かしていきます。最後に、これら二つの手法を直接比較し、それぞれの長所と短所を整理することで、どのような状況でどちらの手法がより適しているのか、そして、これらを組み合わせることで、いかにして研究結果の信頼性を高めることができるのかを探求します。この記事が、観察研究データからより真実に近い因果関係を導き出すためのヒントとなることを願っています。

傾向スコア・マッチングの仕組み

傾向スコアとは何か

傾向スコア・マッチングを理解するための第一歩は、その名の通り「傾向スコア」とは一体何者なのかを正確に把握することです。表面的には、傾向スコアとは、ある患者さんが持つ様々な背景特性(年齢、性別、病気の重症度、合併症の有無など)を考慮した上で、その患者さんが特定の治療を受ける確率を推定した数値です 9。このスコアは0から1の間の値を取り、例えばスコアが0.8であれば、その患者さんは背景特性から判断して80%の確率で治療を受ける傾向にある、と解釈されます。

しかし、傾向スコアの真価は、単なる確率の予測値であること以上に、複雑な情報を一つの指標に集約するその能力にあります。臨床現場では、患者さんの背景は数十もの変数によって記述されることが珍しくありません。これらの変数をすべて同時に考慮して、治療群と対照群で完全に同じ背景を持つ患者さんを見つけ出すことは、現実的にはほぼ不可能です。これを統計学の言葉で「次元の呪い」と呼びます。傾向スコアは、この問題を解決するための強力な道具となります。年齢や性別、検査値といった多次元の情報を、傾向スコアという一次元の「ものさし」に要約してくれるのです 10。そして、もし二人の患者さんが全く異なる背景特性を持っていたとしても、彼らの傾向スコアが同じであれば、治療を受ける確率に影響を与える様々な要因のバランスが、全体として二人の間で釣り合っていると見なすことができるのです。これが、傾向スコアが交絡調整において強力な理由です。

この強力なスコアを算出する上で、最も重要かつ繊細な作業が、スコアの計算モデルにどの変数(共変量)を含めるかを選択するプロセスです。この選択が、解析全体の妥当性を決定づけると言っても過言ではありません 5。変数選択には明確なルールが存在します。まず、モデルに含めるべきなのは、治療の選択と最終的なアウトカムの両方に関連すると考えられる変数、すなわち「交絡因子」です 5。また、治療選択との関連は弱くても、アウトカムに強く関連する変数も、予測の精度を高めるために含めることが推奨されています 5。一方で、絶対に含めてはならないのは、治療を受けた結果として変化する可能性のある変数です。これらは「中間因子」と呼ばれ、これらをモデルに含めて調整してしまうと、本来評価したい治療からアウトカムへの因果の連鎖を人為的に断ち切ってしまい、効果を過小評価する原因となります 12

ここで、一つ非常に重要な、そして直感に反するかもしれない事実を理解する必要があります。傾向スコアを算出するための統計モデル(通常はロジスティック回帰分析が用いられます)の目的は、治療を受けるかどうかを可能な限り正確に「予測」することではありません。むしろ、その主目的は、算出されたスコアを用いてマッチングや重み付けを行った際に、治療群と対照群の間で各共変量のバランスが最も良くなるようなスコアを作り出すことにあります 13。一般的な予測モデルの構築では、モデルの性能を示すC統計量(AUCとしても知られます)のような指標を最大化しようとします。しかし、傾向スコアの文脈では、たとえモデルの予測能力をわずかに下げることになったとしても、アウトカムに強く関連する交絡因子をモデルに含めることが優先されます。なぜなら、その因子をモデルから除外してしまうと、マッチング後の集団でその因子のバランスが取れず、交絡が残存してしまうからです。したがって、傾向スコアモデルの成功は、その予測精度によってではなく、それを用いて調整した後の「共変量のバランスがどれだけ達成されたか」によって評価されるべきなのです。この視点の転換は、傾向スコアを正しく利用する上で極めて重要です。

傾向スコアを用いた交絡調整の手順

傾向スコアという強力な道具を手に入れた後、実際にそれを用いて交絡を調整し、治療効果を推定するプロセスは、いくつかの明確なステップに分かれています。ここでは、その手順を一つひとつ丁寧に追いながら、特に代表的な手法である「マッチング」を中心に解説していきます。

第一のステップは、研究対象となる全ての患者さん一人ひとりについて、傾向スコアを計算することです。前述の通り、これは通常、治療の有無を目的変数とし、選択された共変量を説明変数とするロジスティック回帰モデルを構築することによって行われます 6。このモデルをデータに適用することで、各患者さんがその背景特性に基づいて治療を受ける確率、すなわち傾向スコアが算出されます。

第二のステップが、この手法の核となる「マッチング」です。この段階では、算出された傾向スコアを用いて、治療群の患者さんと対照群の患者さんをペアにしていきます。最も一般的な方法は「最近傍マッチング」と呼ばれるものです。これは、治療群から一人の患者さんを取り出し、対照群の中から最も傾向スコアの値が近い患者さんを探し出してペアにする、という作業を繰り返すものです 6。このペアリングは、治療群の患者さん一人に対して対照群の患者さん一人を対応させる「1対1マッチング」が基本ですが、統計的な検出力を高める目的で、一人に対して複数人(k人)を対応させる「1対kマッチング」も用いられます 9

ただし、このマッチングには注意が必要です。たとえ最も近いスコアのペアを探すといっても、そのスコアの差があまりに大きいと、背景特性が十分に似ているとは言えず、質の低いペアになってしまいます。これを防ぐために、「キャリパー」という許容範囲を設定することがよくあります。これは、傾向スコアの差が一定の値(キャリパー)を超えているペアは、たとえ最も近い候補であってもマッチングを成立させない、というルールです 5。キャリパーを狭く設定すれば、非常に質の高い、背景がよく似たペアが作られますが、その代償としてマッチングが成立しない患者さんが増え、解析対象となるサンプルサイズが減少してしまいます。逆にキャリパーを広げれば、より多くの患者さんを解析に含めることができますが、ペアの質が低下し、交絡が残存するリスクが高まります。この質の高さとサンプルサイズの間のトレードオフは、研究者が慎重に判断すべき点です。

第三のステップは、マッチングが成功したかどうかを評価する、極めて重要な「バランスの確認」です。このステップを怠ることは許されません。マッチング後の新しいデータセットにおいて、治療群と対照群の間で、傾向スコアの計算に用いた全ての共変量の分布を比較します。マッチング前には存在していたであろう年齢や重症度の差が、マッチング後には解消、あるいは大幅に縮小していることを示さなければなりません 12。このバランス評価には、「標準化差」という指標が広く用いられ、その値が十分に小さいことで、両群の背景が均質化されたと判断します 6

そして最後の第四のステップが、治療効果の推定です。共変量のバランスが十分に取れていることを確認した後、初めてアウトカムの比較に進むことができます。この分析は、マッチングによって作られたペアのデータセットに対して行われます。治療群の各個人が対照群の特定の個人とペアになっているため、統計解析もそのペア構造を考慮した「対応のある検定」を用いるのが適切です(例えば、対応のあるt検定など) 10

なお、傾向スコアの利用法はマッチングだけではありません。他にも、傾向スコアの値に基づいて患者さんをいくつかの層(例えば5つのグループ)に分け、各層の中で治療効果を評価し、それらを統合する「層別化解析」や、各患者さんの傾向スコアの逆数を重みとして用いることで、交絡因子がバランスした仮想的な集団を作り出して解析する「逆確率重み付け法(IPTW)」といった手法も存在します 5。これらの手法も、それぞれ異なる特徴を持ち、研究の目的に応じて選択されます。

傾向スコア・マッチングの限界と注意点

傾向スコア・マッチングは、観察研究における交絡を調整するための直感的で強力な手法ですが、その能力には明確な限界があり、利用する際にはいくつかの重要な注意点を心に留めておく必要があります。これらの限界を理解しないまま結果を解釈すると、深刻な誤解を招く可能性があります。

この手法における最大かつ最も根本的な限界は、「測定されていない交絡因子」には対処できないという点です 5。傾向スコアは、あくまで研究者がデータを収集し、モデルに投入した共変量に基づいて計算されます。したがって、マッチングによってバランスが取れるのも、これらの「測定された」共変量に限られます。もし、治療選択とアウトカムの両方に影響を与える重要な因子(例えば、患者さんの治療への意欲や、データ化されていない軽微な症状など)が測定されておらず、傾向スコアの計算に含まれていなければ、その因子の影響は調整されずに残ってしまいます。その結果、たとえマッチング後に測定済みの共変量が完璧にバランスしていたとしても、見えない交絡因子によって治療効果の推定値は歪められてしまうのです。

この事実は、傾向スコア・マッチングが決してランダム化比較試験(RCT)の完全な代替にはならないことを意味します。真のランダム化は、その確率的な性質により、私たちが測定できたかどうかにかかわらず、既知および未知のすべての交絡因子を、治療群と対照群の間で平均的に等しくバランスさせることが期待できます 6。これこそがRCTが因果推論の「ゴールドスタンダード」と呼ばれる所以です 4。傾向スコア・マッチングは、あくまで観測された情報に基づいて、その理想的な状況を「模倣」しようと試みるものに過ぎません。

さらに、実用上の課題も存在します。一つは、サンプルサイズの減少です。特に1対1マッチングでは、治療群の人数に合わせて対照群から同数の患者さんを選ぶため、元の対照群に多くの患者さんがいても、その大部分は解析から除外されます 9。より深刻なのは、治療群の患者さんの中にも、適切なペアとなる相手が対照群に見つからずにマッチングから脱落するケースがあることです 5。これにより、統計的な検出力が低下するだけでなく、マッチングから除外された患者さんの特性が、解析に残った患者さんの特性と異なる場合、研究結果の一般化可能性、すなわち、その結果をより広い患者集団に適用できるかどうかが制限される可能性があります 5

また、解析は「共通サポートの範囲内」でのみ妥当性を持つという制約もあります。共通サポートとは、治療群と対照群の両方に、同程度の傾向スコアを持つ患者さんが存在する範囲のことです 14。例えば、ある背景特性を持つ患者さんはほぼ全員が治療を受け(傾向スコアが1に近い)、別の特性を持つ患者さんはほぼ誰も治療を受けない(傾向スコアが0に近い)という状況では、これらの患者さんをマッチングさせることはできません。したがって、解析は、治療を受ける可能性と受けない可能性の両方が存在するような、傾向スコアが重なり合う領域の患者さんに限定されることになります。

これらの限界を認識することは、傾向スコア・マッチングを適切に用い、その結果を慎重に解釈するために不可欠です。

操作変数法の原理と利点

操作変数とは何か

傾向スコア・マッチングが「測定された交絡因子」の調整に焦点を当てるのに対し、これから解説する「操作変数法」は、全く異なる哲学的基盤の上に成り立っています。この手法は、観察研究のデータの中に隠されている「自然の実験」あるいは「あたかもランダム化されたかのような」状況を見つけ出し、それをてこにして因果効果を推定するものです 7。操作変数法の最大の魅力は、適切に適用されれば、「測定されていない交絡因子」という、観察研究における最も厄介な問題に対処できる可能性を秘めている点にあります 19

では、その鍵となる「操作変数」とは一体何者なのでしょうか。ある変数(Z)が、調べたい治療(X)とアウトカム(Y)の関係における有効な操作変数であるためには、以下の三つの厳格な条件を同時に満たす必要があります。これらの条件は、数式を使わずに言葉で理解することが非常に重要です 8

第一の条件は「関連性(Relevance)」です。操作変数(Z)は、治療(X)の選択に影響を与える、あるいは少なくとも相関している必要があります。つまり、操作変数の値が異なれば、患者が治療を受ける確率も変わる、という関係がなければなりません。この条件は、データを用いて統計的に検証することが可能です 8。もし操作変数と治療との関連が非常に弱い場合、「弱い操作変数」の問題が生じ、解析結果が不安定で信頼性の低いものになる可能性があります 18

第二の条件は「外生性(Exogeneity)」または「独立性(Independence)」です。操作変数(Z)は、治療(X)とアウトカム(Y)の関係を交絡させているあらゆる「未測定の交絡因子(U)」と独立でなければなりません。言い換えれば、操作変数自体は、あたかもランダムに割り振られたかのように、患者さんの背景にある他の要因とは無関係である必要があります 21。この条件こそが、操作変数法が未測定の交絡を乗り越えられる根拠となります。しかし、この条件は、未測定の因子との関連性を問うものであるため、原理的にデータから直接証明することは不可能です。その妥当性は、理論や文脈に基づいて慎重に論証されなければなりません 25

第三の条件は「除外制約(Exclusion Restriction)」です。操作変数(Z)は、アウトカム(Y)に対して、治療(X)を経由する以外の直接的な影響を持ってはなりません 18。操作変数からアウトカムへの因果の道筋は、必ず治療というルートを通過する必要があるのです。この条件もまた、データから直接証明することはできず、その妥当性は理論的な考察に依存します 26

これらの抽象的な条件を、具体的な臨床研究の例で考えてみましょう。脳梗塞患者さんに対する「早期リハビリテーション(治療)」が「機能回復(アウトカム)」に与える影響を調べたいとします。この時、大きな交絡因子として「脳梗塞の重症度」が考えられます。重症な患者さんほど早期リハビリが開始されにくく、かつ機能回復も悪い傾向にあるため、単純な比較では早期リハビリの効果を正しく評価できません。ここで、「入院した曜日(週末か平日か)」を操作変数として用いる研究が考えられます 7

この「入院曜日」が三つの条件を満たすか検証してみましょう。

まず「関連性」です。週末はリハビリ部門のスタッフが手薄になる病院では、週末に入院した患者さんは、平日に比べてリハビリ開始が遅れる傾向にあります。したがって、入院曜日はリハビリのタイミング(治療)と関連しています。

次に「外生性」です。患者さんが脳梗塞を発症する曜日は、基本的には偶然であり、その人の元々の健康状態や脳梗塞の重症度といった未測定の交絡因子とは無関係であると考えるのが妥当でしょう。

最後に「除外制約」です。入院した曜日自体が、リハビリのタイミングとは別の経路で機能回復に影響を与えることはない、と仮定します。例えば、週末はリハビリ以外の医療の質も全体的に低い、ということがなければ、この条件は満たされます。

このように、三つの条件が満たされていると論理的に主張できれば、「入院曜日」は有効な操作変数となり、重症度という測定が難しい交絡因子の影響を排除して、早期リハビリの真の効果に迫ることが可能になります。

しかし、ここで極めて重要な点を強調しなければなりません。傾向スコア・マッチングでは、マッチング後に共変量のバランスが取れたかをデータで確認できましたが、操作変数法では、その妥当性の根幹をなす外生性と除外制約という二つの仮定を、データで証明することはできません 25。したがって、操作変数法を用いた研究の信頼性は、統計的な計算結果そのものよりも、研究者が提示する「なぜこの変数が有効な操作変数だと言えるのか」という理論的な論証の説得力に大きく依存します。例えば、先の例で批評家は、「週末は医療全体の質が低く、それが直接アウトカムに影響しているため、除外制約は満たされていない」と反論するかもしれません。研究者は、この反論に対して、他の処置の実施率や医療過誤の発生率が週末と平日で変わらないといった補足的な証拠を示すことで、自らの主張を補強する必要があります。このように、操作変数法の評価は、単なる数値の確認ではなく、その背後にある論理の妥当性を吟味する、より批判的で質的な営みとなるのです。

操作変数法による因果効果の推定

有効な操作変数を見つけ出すことができれば、次はその変数をてこにして、どのようにして因果効果を推定するのでしょうか。そのための代表的な統計手法が「2段階最小二乗法(Two-Stage Least Squares: 2SLS)」です。ここでは、数式を一切使わずに、その論理的な手順を二つの段階に分けて解説します 27

第一段階の目的は、治療変数の中に含まれる様々な変動の中から、交絡によって汚染されていない「良い変動」だけを抽出することです。具体的には、まず操作変数を用いて、患者が治療を受けるかどうか(あるいは治療の量)を予測するモデルを構築します。この予測モデルによって得られる治療の予測値は、その変動の源泉が「あたかもランダムである」操作変数のみに由来するため、未測定の交絡因子の影響から切り離されていると考えられます 28。つまり、この第一段階は、元の治療変数を、交絡から浄化された「クリーンな」治療変数に変換するフィルターのような役割を果たします。

第二段階では、この第一段階で作成された「クリーンな」治療変数を説明変数として用い、最終的なアウトカムを予測するモデルを構築します。このモデルの予測に用いる治療変数は、すでに未測定の交絡因子を含む誤差項とは無相関になるように作られているため、ここで得られる治療変数の係数(アウトカムへの影響の大きさ)は、交絡によるバイアスが取り除かれた、真の因果効果の一致推定量となります 28。この二段階のプロセスを経ることで、直接比較では見えなかった因果関係を明らかにすることができるのです。

ただし、操作変数法によって推定される因果効果が、何を意味するのかについては、非常に重要な注意点があります。この方法で得られる効果は、全ての患者さんに対する平均的な治療効果ではありません。それは、「局所的平均治療効果(Local Average Treatment Effect: LATE)」と呼ばれる、特定の集団に対する効果なのです 21

この特定の集団とは、「コンプライヤー(Compliers)」と呼ばれる人々です。コンプライヤーとは、その人の治療の有無が、操作変数の値によって実際に変化した人々のことを指します。先の脳梗塞の例で言えば、平日に入院すれば早期リハビリを受け、週末に入院したためにリハビリが遅れた、という患者さんたちがコンプライヤーです。操作変数法が推定するのは、このコンプライヤー集団における早期リハビリの効果です。

一方で、世の中には、いつ入院しても必ず早期リハビリを受ける「常時治療群(Always-takers)」や、いつ入院しても決して早期リハビリを受けない「常時非治療群(Never-takers)」も存在するでしょう。操作変数法の結果は、これらの人々の治療効果については何も語ってくれません。したがって、操作変数法による推定値は、その仮定が満たされていればバイアスのない真の因果効果(高い内的妥当性)を持つ一方で、その結果をコンプライヤー以外の集団や患者全体に一般化する際には注意が必要(外的妥当性が限定的)となります。このLATEという概念は、操作変数法の結果を正しく解釈する上で、絶対に欠かせない知識です。

操作変数法の強みと難しさ

操作変数法は、その独特なアプローチゆえに、他の統計手法にはない際立った強みと、同時に無視できない大きな難しさを併せ持っています。この手法を適切に評価し、利用するためには、その両面を正確に理解しておくことが不可欠です。

この手法が持つ比類なき強みは、その仮定が満たされる限りにおいて、観察研究における最大の敵である「未測定の交絡因子」の影響を制御できるという点にあります 8。標準的な回帰分析や傾向スコア・マッチングでは、原理的に対処不可能な、データとして記録されていない要因(例えば、医師の経験や患者の生活習慣など)によるバイアスを取り除き、より真実に近い因果効果を推定できる可能性を秘めています。これは、ランダム化比較試験が実施不可能な状況において、それに準ずる質の高いエビデンスを提供する上で、極めて価値のある能力です。

しかし、この強力な利点を得るための代償は決して小さくありません。最大の、そして最も現実的な難しさは、前述した「関連性」「外生性」「除外制約」という三つの厳格な条件を同時に満たす、有効な操作変数を現実世界で見つけ出すことが極めて困難であるという点です。優れた操作変数は非常に稀であり、多くの研究状況では、候補となる変数が見つからないか、見つかってもその妥当性について説得力のある論証ができない場合がほとんどです 7

さらに、たとえ有効な操作変数が見つかったとしても、技術的な課題が残ります。その一つが「弱い操作変数」の問題です。これは、操作変数と治療との関連性(第一の条件)が統計的に有意であっても、その結びつきが弱い場合に発生します。操作変数が弱いと、2段階最小二乗法による推定値は非常に不安定になり、標準誤差が極端に大きくなる(結果が不正確になる)だけでなく、限られたサンプルサイズの中では、本来取り除きたかったはずのバイアスが再び忍び寄り、単純な比較から得られる誤った推定値の方向に引きずられてしまう危険性があります 18

また、操作変数法による推定値は、たとえ操作変数が強く、その仮定が完全に満たされていたとしても、一般的に傾向スコア・マッチングや標準的な回帰分析から得られる推定値よりも標準誤差が大きくなる、つまり「精度が低い」傾向にあります 25。これは、元の治療変数に含まれる全ての情報を使うのではなく、操作変数によって説明される一部の変動のみを利用して因果効果を推定するという、この手法の構造的な性質に起因します。未測定の交絡に対処できるという大きな見返りのために、統計的な精度という代価を支払っていると考えることができます。

これらの強みと難しさを天秤にかけ、研究の文脈の中で操作変数法の適用が妥当かどうかを慎重に判断することが、研究者には求められます。

二つの手法の比較と応用

各手法の利点と限界

これまで、傾向スコア・マッチングと操作変数法、二つの強力な分析手法をそれぞれ詳しく見てきました。両者はともに、観察研究データから因果関係を探るという共通の目的を持ちながら、その哲学とアプローチは大きく異なります。ここでは、研究者が自身の研究課題に直面した際に、どちらの手法を選択すべきかを考えるための指針として、両者の利点と限界を直接的に比較し、整理します。

まず、傾向スコア・マッチングについてです。この手法の最大の利点は、その直感的な分かりやすさにあります。治療群と対照群から背景特性が似た者同士をペアにするというプロセスは、専門家でなくても容易に理解できます。また、傾向スコアを計算するモデルには、研究者が重要だと考える測定済みの共変量を柔軟に多数投入することができ、これらの「測定された」交絡因子間のバランスを直接的に改善することを目指します 30。これにより、あたかもランダム化比較試験を行ったかのような、比較可能な二つの集団を作り出すことができます。

しかし、その限界もまた明確です。傾向スコア・マッチングの最大の弱点は、その調整能力が「測定された」共変量に限定されるという点です 5。もし重要な交絡因子がデータに含まれていなければ、その影響はバイアスとして残存します。また、マッチングの過程で適切なペアが見つからなかった対象者は解析から除外されるため、サンプルサイズが減少し、統計的な検出力が低下するだけでなく、研究結果の一般化可能性が損なわれる可能性もあります 5。さらに、どの共変量をモデルに含めるかという、研究者のモデル設定の仕方が結果に影響を与える可能性も指摘されています 30

次いで、操作変数法です。この手法が持つ最大の、そして唯一無二の利点は、その仮定が満たされれば「未測定の交絡因子」をも制御できるという点にあります 8。これは、他の多くの観察研究の手法では達成不可能な、非常に強力な特徴です。医師の裁量や患者の自己選択といった、データ化が難しい要因によるバイアス(いわゆるセレクションバイアス)が強く疑われる状況において、操作変数法はランダム化比較試験が不可能な場合の貴重な代替手段となり得ます。

その一方で、操作変数法には数多くの厳しい制約と難点が存在します。最も根本的な問題は、三つの厳格な条件を満たす有効な操作変数を見つけること自体が極めて難しいという現実です 7。また、たとえ有効な操作変数が見つかったとしても、その効果の推定値は一般的に精度が低く(標準誤差が大きく)なります 25。特に、操作変数と治療との関連が弱い場合には、推定結果が著しく不安定になり、誤った結論を導く危険性さえあります 18。さらに、操作変数法が推定するのは、操作変数によって治療の有無が影響された「コンプライヤー」と呼ばれる特定の部分集団に対する効果(LATE)であり、その結果が患者全体に当てはまるかどうかは不明であるため、一般化可能性が限定されるという重要な制約もあります 21

このように、両手法は一長一短であり、どちらか一方が絶対的に優れているわけではありません。研究の目的、データの質、そして何よりも、研究者が直面している交絡の性質に関する想定に基づいて、適切な手法を選択することが求められます。

結果の頑健性の確認方法

傾向スコア・マッチングと操作変数法は、それぞれ異なる利点と限界を持つため、どちらか一方の手法を選ぶことが難しい、あるいは一つの手法の結果だけでは確信が持てない、という状況は頻繁に起こります。このような場合に、研究の結論の信頼性を飛躍的に高めるための強力なアプローチが、両方の手法を併用する「三角測量(Triangulation)」あるいは「感度分析」という考え方です 31

このアプローチの論理は非常に明快です。傾向スコア・マッチングと操作変数法は、それぞれ全く異なる、そしてある意味では対極的な仮定に基づいています。傾向スコア・マッチングは、「重要な交絡因子はすべて測定されており、それらを調整すればバイアスは取り除ける」という仮定に立脚しています。一方、操作変数法は、まさに「重要な交絡因子が測定されていない」という問題を解決するために考案された手法です。

もし、これほどまでに異なる仮定を置く二つの手法を用いて分析を行った結果、両者が同じ方向性(例えば、治療AはアウトカムBを改善する)を示し、その効果の大きさも概ね同程度であったとしたら、それは何を意味するでしょうか。それは、その研究結果が、特定の分析手法の仮定に大きく依存するような脆いものではなく、非常に「頑健(Robust)」であることの強力な証拠となります 31

結果が一致した場合、私たちは次のように考えることができます。まず、操作変数法の結果が肯定的なものであったことから、この治療効果は、測定されていない未知の交絡因子によって生み出された見せかけのものである可能性は低いと言えます。同時に、傾向スコア・マッチングでも同様の結果が得られたことから、操作変数法の結果が、何か特殊な状況下でのみ成立する奇妙なアーティファクト(例えば、極端に限定されたコンプライヤー集団だけの効果)である可能性も低いと判断できます。このように、異なる弱点を持つ二つの手法が互いの弱点を補い合うことで、結論の信頼性が格段に向上するのです。

逆に、二つの手法で結果が大きく食い違った場合はどうでしょうか。それは、どちらかの手法が「間違っている」と単純に結論付けるのではなく、より深い洞察を得るための重要な出発点となります。例えば、傾向スコア・マッチングでは効果が見られたのに、操作変数法では効果が見られなかった場合、それは「測定されていない交絡因子」が傾向スコア・マッチングの結果を歪めていた可能性を示唆します。あるいは、操作変数法が推定したLATE(局所的平均治療効果)が、傾向スコア・マッチングが推定した集団全体の平均治療効果とは本質的に異なるのかもしれません。このように、結果の不一致は、分析の仮定に対する結果の感度を明らかにし、我々が下そうとしている結論の不確実性について、正直かつ透明性の高い議論を促す貴重な機会を与えてくれます。

このように、二つの手法を単なる個別の統計ツールとしてではなく、因果推論のための包括的な研究戦略の構成要素として捉える視点が重要です。目的は、唯一絶対の「正しい」手法を見つけることではなく、様々な角度から結果を検証し、その知見がいかに堅牢であるかを確かめることにあるのです。この戦略的なアプローチは、説得力の高い非実験研究の証であり、単一の手法に固執するよりもはるかに強力な因果の論証を構築します。

結局、どちら?

ここまで、傾向スコア・マッチングと操作変数法のそれぞれの特徴と、両者を組み合わせるアプローチについて議論してきました。では、最終的に研究者はどちらの手法を選べば良いのでしょうか。この問いに対する答えは、「唯一の正解はない」というものです。最適な手法の選択は、絶対的な優劣によって決まるのではなく、研究の目的、利用可能なデータの質、そして研究者が想定する交絡の構造という、個々の研究の文脈に完全に依存します。

傾向スコア・マッチングを優先的に検討すべきなのは、研究者が質の高いデータを持っており、治療選択とアウトカムに影響を与えうる主要な交絡因子が、そのデータ内で十分に測定されていると合理的な自信を持てる場合です。例えば、詳細な患者レジストリデータなどを用いて、年齢、性別、病歴、併用薬、社会経済的状況といった変数が網羅的に利用できる状況がこれにあたります 31。この手法は比較的直感的で実行しやすく、その結果(平均治療効果)も広く一般の患者集団に適用しやすいという利点があります。

一方で、操作変数法の利用を積極的に考えるべきなのは、治療の選択に、測定することが困難な強いバイアスが働いていると疑われる場合です。臨床研究で頻繁に問題となる「indication bias(適応によるバイアス)」、すなわち、より重症な患者さんほど特定の(しばしば新しい、あるいは強力な)治療を受ける傾向がある、といった状況が典型例です 8。このような深刻な未測定交絡が想定され、かつ、その状況において三つの厳格な条件を満たすと信じられる「もっともらしい操作変数」が利用可能である場合に限り、操作変数法はその真価を発揮します 31

したがって、手法選択のプロセスは、まず自身の研究における交絡の可能性を深く洞察することから始まります。「主要な交絡因子は何か?」「それらは手元のデータで測定できているか?」「測定できていない、あるいは測定不可能な交絡因子は存在しないか?」といった問いに真摯に向き合う必要があります。

そして、本稿で繰り返し述べてきたように、最も理想的なのは、どちらか一方を選ぶという二者択一の思考から脱却することです。もしデータと状況が許すのであれば、両方の手法を適用し、その結果を比較検討することが、最も信頼性の高い結論を導くための王道と言えるでしょう。傾向スコア・マッチングで測定された交絡因子を調整した上での結果を示し、さらに操作変数法を用いて未測定の交絡因子の影響下でも同様の結果が得られることを示す。この二段構えのアプローチこそが、観察研究から得られるエビデンスの価値を最大化する鍵となるのです 31

まとめ

本稿では、臨床研究、特に観察研究データから治療の因果効果を推定するために不可欠な二つの高度な統計手法、「傾向スコア・マッチング」と「操作変数法」について、その原理から実践、限界に至るまでを包括的に解説しました。

傾向スコア・マッチングは、患者背景が異なる治療群と対照群を比較可能にするための強力な手法です。様々な背景特性を「傾向スコア」という一つの指標に集約し、そのスコアが近い者同士をマッチングさせることで、あたかもランダム化比較試験を行ったかのように「測定された」交絡因子のバランスを取ります。その直感的な分かりやすさと柔軟性から広く利用されていますが、その有効性は測定された変数に限定され、未知あるいは未測定の交絡因子には対処できないという根本的な限界を内包しています。

一方、操作変数法は、全く異なるアプローチを取ります。この手法は、データの中に存在する「自然の実験」とも言える操作変数を利用して、測定されているか否かにかかわらず、交絡因子の影響を排除しようと試みます。ランダム化比較試験が実施不可能な状況で、未測定の交絡という深刻な問題に対処できる唯一無二の可能性を秘めていますが、その適用は、三つの厳格な条件を満たす有効な操作変数を見つけられるかどうかにかかっており、その仮定の妥当性はデータからは証明できないという大きな課題を抱えています。

適切な解析手法の選択は、研究から導き出される結論の妥当性と信頼性に決定的な影響を与えます。研究のデザイン、データの特性、そして最も重要な、研究者が想定する交絡の構造に応じて、これらの手法を賢く選択することが求められます。傾向スコア・マッチングは、主要な交絡因子が測定されていると確信できる場合に強力な選択肢となります。操作変数法は、深刻な未測定交絡が疑われ、かつ、信頼できる操作変数が存在する稀有な状況でその真価を発揮します。

最終的に、最も重要なメッセージは、これらの手法を単なる「ブラックボックス」としてではなく、その内部構造と仮定を深く理解した上で用いるべきであるということです。そして、可能であれば、両手法を併用し、異なる仮定の下でも結論が揺るがないかを確認する「頑健性」の検証を行うことが、観察研究から得られるエビデンスの質を最大限に高める道です。今日の医療において、日々蓄積されていく膨大なリアルワールドデータから真に価値のある知見を引き出すためには、これらの高度な手法を思慮深く、かつ誠実に適用していく能力が、これからの研究者にとってますます不可欠となるでしょう。

引用文献

  1. 交絡因子 - 医療情報をわかりやすく発信するプロジェクト(医学系研究をわかりやすく伝えるための手引き) - 東京大学, https://ez2understand.ifi.u-tokyo.ac.jp/terms/terms_26/
  2. 交絡因子とは?統計検定2級レベルでわかりやすく解説 - DataStreet, https://statistical.jp/confounding-factor/
  3. 交絡バイアス 交絡因子 | 疫学用語の基礎知識, https://jeaweb.jp/glossary/glossary014.html
  4. 交絡因子とは?中間因子など統計的な意味を事例でわかりやすく簡単に, https://best-biostatistics.com/design/kouraku2.html
  5. 傾向スコア解析(マッチング) | 医療関連情報 | アステラス ..., https://amn.astellas.jp/medical-information/analysis/analysis-2
  6. 傾向スコアマッチング法(プロペンシティスコア)をわかりやすく ..., https://best-biostatistics.com/summary/propensity-score.html
  7. 【臨床研究】操作変数法 - こりんの基礎医学研究日記, https://teicoplanin.hatenablog.com/entry/2020/07/27/153054
  8. Reading and conducting instrumental variable studies: guide, glossary, and checklist, https://www.bmj.com/content/387/bmj-2023-078093
  9. 【マッチング比はどれぐらいがいいの?】傾向スコアマッチングの最適なマッチング比とマッチング比の考え方を解説! | 医療統計相談室, https://biostatistics-consult.com/optimal-matching-ratio/
  10. 【観察研究での交絡調整の方法】傾向スコアを使った解析3種を紹介! | 医療統計相談室, https://biostatistics-consult.com/propensity-score-analysis/
  11. 傾向スコア分析 - 和歌山県立医科大学附属病院 臨床研究センター, https://waidai-csc.jp/updata/2018/08/seminar-igaku-20180126.pdf
  12. Propensity score matching for comparative studies: a tutorial with R and Rex - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC11187614/
  13. A Practical Guide to Getting Started with Propensity Scores - SAS Support, https://support.sas.com/resources/papers/proceedings17/0689-2017.pdf
  14. R Tutorial 8: Propensity Score Matching - Simon Ejdemyr, https://simonejdemyr.com/r-tutorials/statistics/tutorial8.html
  15. Propensity Score Matching: A Guide to Causal Inference | Built In, https://builtin.com/data-science/propensity-score-matching
  16. これからの臨床研究に求められる統計手法① | 胆膵ノート, https://ilikeercp.com/rj/page-2518/
  17. Understanding Propensity Scores: A Guide to Reducing Bias in Observational Studies, https://www.datacamp.com/tutorial/propensity-score
  18. Instrumental Variables | Columbia University Mailman School of Public Health, https://www.publichealth.columbia.edu/research/population-health-methods/instrumental-variables
  19. リハビリテーション医学研究における傾向スコア解析・操作変数法の活用 - J-Stage, https://www.jstage.jst.go.jp/article/jjrmc/59/11/59_59.1087/_article/-char/ja
  20. Tutorial in Biostatistics: Instrumental Variable Methods for Causal Inference* - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC4201653/
  21. Instrumental Variables Estimation - The Decision Lab, https://thedecisionlab.com/reference-guide/statistics/instrumental-variables-estimation
  22. Instrumental variables | Intro to Econometrics Class Notes - Fiveable, https://library.fiveable.me/introduction-econometrics/unit-9/instrumental-variables/study-guide/TJupE3k4Q0JZ81Rk
  23. Instrumental variables estimation - Wikipedia, https://en.wikipedia.org/wiki/Instrumental_variables_estimation
  24. The 3 Assumptions of Instrumental Variables: Causal Inference Bootcamp - YouTube, https://www.youtube.com/watch?v=GWdW4-4PPJg
  25. A tutorial on the use of instrumental variables in pharmacoepidemiology - Penn CCEB, https://www.cceb.med.upenn.edu/sites/default/files/uploads/cter/A%20tutorial%20on%20the%20use%20of%20instrumental_0.pdf
  26. Instrumental Variables, https://jeffmichler.com/sites/jeffmichler.com/files/3B%20-%20Instrumental%20Variables.pdf
  27. [R] R で二段階最小二乗法 (操作変数法) - ill-identified diary - はてなブログ, https://ill-identified.hatenablog.com/entry/2015/01/07/233655
  28. 3.1 回帰変数が一つで操作変数も一つの場合の操作変数法, https://www.nishiyama.kier.kyoto-u.ac.jp/2017/jugyochukei3.pdf
  29. 操作変数法 - endogi.info, https://endogi.info/cao-zuo-bian-shu-fa.html
  30. (PDF) Comparing Standard Regression, Propensity Score Matching, and Instrumental Variables Methods for Determining the Influence of Mammography on Stage of Diagnosis - ResearchGate, https://www.researchgate.net/publication/226535725_Comparing_Standard_Regression_Propensity_Score_Matching_and_Instrumental_Variables_Methods_for_Determining_the_Influence_of_Mammography_on_Stage_of_Diagnosis
  31. 傾向スコア・マッチングと操作変数法って?解説と比較 - RWE, 傾向スコア・マッチングと操作変数法って?解説と比較 - RWE

-エビデンス全般, ビジネス全般, ビッグデータ, 統計学

© 2025 RWE