Table of Contents
Estimand:科学的問いを精密に定義する
Estimandの概念
臨床研究や科学的探求の世界において、その最終的な結論の信頼性は、研究の出発点、すなわち「何を明らかにしたいのか」という問いの立て方の明確さに大きく依存します。この根源的な問いを、科学的に厳密かつ曖昧さなく定義するための枠組みが「Estimand(エスティマンド)」です。これは日本語で「統計学的推定対象」と訳されることもありますが、単なる統計手法ではなく、臨床試験の目的と、その設計、実施、解析、そして解釈とを整合させるための、より高次の概念的枠組みです 1。
Estimandの核心は、臨床試験が定量化しようとする治療効果を、あらゆる関係者が誤解なく理解できる形で精密に記述することにあります。これまでも研究者は当然ながら目標を持って研究を進めてきました。しかし、その目標が「この薬の有効性を評価する」といった漠然としたものである場合、その「有効性」が何を意味するのかについて、研究者、臨床医、統計家、そして規制当局の間で解釈のずれが生じる余地がありました。特に、治療期間中に発生する様々な予期せぬ出来事、例えば患者が副作用のために服薬を中止する、あるいは効果がないと感じて別の治療法を開始するといった事象は、結果の解釈を著しく複雑化させる要因でした 2。
このような背景から、国際的な医薬品規制調和会議(ICH)は、そのガイドライン「臨床試験のための統計的原則」の補遺として「ICH E9(R1) 臨床試験におけるEstimandと感度分析」を発表しました 4。この文書は、研究の計画段階で「最終的に知りたいことは何か」をEstimandとして明確に定義することを強く推奨しています。この枠組みは、臨床試験に関わる全てのステークホルダー、すなわち臨床医、統計家、規制当局、そして患者に至るまでが、試験が答えようとしている科学的な問いについて共通の理解を持つための「共通言語」として機能します 1。日本の医薬品医療機器総合機構(PMDA)や米国の食品医薬品局(FDA)といった規制当局も、この考え方を積極的に導入し、その理解を促進するための活動を行っており、現代の医薬品開発においてEstimandの定義は不可欠なプロセスとなっています 4。
Estimandの導入は、臨床試験における思考の順序に根本的な転換をもたらしました。歴史的に、服薬中止やデータ欠測といった問題は、しばしば解析段階で対処すべき技術的な課題として扱われ、そのために「最終観測値の前回値補完(LOCF)」のような便宜的な統計手法が適用されることがありました 7。しかし、これらの手法が暗黙のうちにどのような科学的問いに答えているのかは、必ずしも明確ではありませんでした。Estimandフレームワークは、この順序を逆転させます。まず、介入後イベントをどのように扱うかを含めて、科学的な問い、すなわちEstimandを定義し、その上で、その問いに答えるために最も適切な研究デザインと統計的な解析手法(Estimator、推定量)を選択することを求めます 8。
このアプローチは、研究の質を根底から向上させます。問いが明確であれば、どのようなデータを収集すべきか、どのような患者を対象とすべきか、そして得られた結果をどのように解釈すべきかが一貫して定まります。これにより、解析段階での恣意的な判断が入り込む余地を減らし、研究結果の透明性、再現性、そして信頼性を大幅に高めることができるのです。したがって、Estimandは単なる新しい専門用語ではなく、科学的探求の質そのものを保証するための、根源的な思考の転換を促すパラダイムシフトであると言えるでしょう。
Estimand:5つの基礎的支柱
Estimandは、研究が答えようとする科学的な問いを具体化するための、構造化された定義です。ICH E9(R1)ガイドラインでは、この定義を構成する要素として、主に5つの属性(attribute)を特定し、これらを一つずつ丁寧に定めることを推奨しています 2。これら5つの柱を組み合わせることで、研究の「設計図」が完成し、その問いの輪郭が明確になります。
対象集団(Population)
第1の柱は、研究結果が最終的に適用されるべき患者集団を特定することです。これは、単に「高血圧患者」といった広範なカテゴリーではなく、その集団が持つべき具体的な特徴を定義するプロセスです。例えば、年齢層、性別、疾患の重症度、過去の治療歴、特定の遺伝子マーカーの有無といった基準を用いて、「18歳以上65歳未満で、特定の遺伝子変異を持つ、ステージIVの非小細胞肺がん患者」のように、対象集団を精密に記述します。
この定義が重要なのは、治療効果は患者の特性によって大きく異なる可能性があるためです。対象集団を明確にすることで、研究結果をどのような人々に一般化できるのか、その適用範囲が限定されます 11。この定義が曖昧であると、ある試験で有効性が示された治療法が、実臨床で異なる背景を持つ患者に用いられた際に、期待された効果を発揮しないという事態を招きかねません。
さらに、研究デザインの中には「エンリッチメント(enrichment)」戦略と呼ばれるアプローチが存在します。これは、治療に反応する可能性が高い患者を選択的に組み入れることで、試験の効率性を高める手法です 12。例えば、「ランダム化中止デザイン(Randomized Discontinuation Design)」では、まず全対象者に治験薬を投与し、その中で良好な反応を示した患者だけを次のランダム化比較の段階に進めます 14。この場合、主要なEstimandの対象集団は「初期治療に反応した患者集団」となり、より特殊な集団における効果を評価することになります。このように、対象集団の定義は、研究の一般化可能性(external validity)、すなわち試験結果をより広い実世界の集団にどの程度適用できるかという問題と密接に関連しています 15。
変数(Variable / Endpoint)
第2の柱は、治療の介入効果を測定するための具体的な指標、すなわち「変数」または「評価項目(endpoint)」を定めることです。これは、研究の「ものさし」を決定するプロセスに他なりません。最も重要な指標である「主要評価項目」だけでなく、その他の重要な側面を評価する「副次評価項目」もこの定義に含まれます。
「効果があった」という言葉の意味は、どの変数で測るかによって根本的に異なります。例えば、降圧薬の試験において、変数が「血圧の低下量」であるか、「心血管イベントの発生率」であるか、あるいは「患者の生活の質(QOL)スコア」であるかによって、その薬がもたらす価値の側面は全く異なります 16。変数を定義する際には、それをいつ、どのように測定するかも明確にする必要があります。例えば、「治療開始から24週時点での、ベースラインからの糖化ヘモグロビン(HbA1c)値の変化量」といった具体的な記述が求められます。
近年では、客観的な臨床検査値だけでなく、患者自身の声である「患者報告アウトカム(Patient-Reported Outcome, PRO)」の重要性も増しています 17。また、複数の評価項目を一つに統合した「複合評価項目(composite endpoint)」が用いられることもあります。これは、個々のイベントの発生頻度が低い場合などに、統計的な検出力を高める目的で利用されますが、その解釈には注意が必要です 18。例えば、「死亡または心不全による入院」を一つの複合評価項目とした場合、その結果が主にどちらの要素によって駆動されたのかを慎重に吟味する必要があります。変数の選択は、科学的・臨床的な妥当性に基づいて行われるべき、極めて重要な決定です。
介入(Intervention / Comparator)
第3の柱は、比較対象となる治療条件を明確に定義することです。これには、評価の対象となる「介入」そのものと、それを比較する「対照(comparator)」の両方が含まれます。
介入の定義は、単に薬剤名を挙げるだけでは不十分です。「新薬Aを1日1回10mg、経口投与する」というように、用法、用量、投与経路、治療期間などを詳細に規定する必要があります。介入が教育プログラムのような非薬物療法であれば、その内容、頻度、期間などを具体的に記述します。
同様に重要なのが、対照の定義です。新薬の効果を評価する場合でも、比較対象が偽薬(プラセボ)なのか、既存の標準治療薬なのかによって、明らかになる「効果」の意味合いは全く異なります 10。プラセボとの比較は、その薬が薬理学的な効果を持つかどうか(efficacy)を問うのに対し、標準治療薬との比較は、既存の治療法に対する付加価値(comparative effectiveness)を問うことになります。これらの定義を厳密に行うことで初めて、研究結果が何を意味するのかを正確に解釈することが可能となります。
集団レベルでの要約指標(Population-Level Summary Measure)
第4の柱は、対象集団に属する個々の患者から得られた測定結果(変数)を、集団全体としてどのように要約し、表現するかの統計的な指標を定めることです。個々の患者データだけでは、集団としての傾向や治療効果の大きさを把握することはできません。
この要約指標の選択は、変数の種類(連続値、二値、生存時間など)と研究の目的に依存します。例えば、変数が血圧のような連続値であれば、群間の「平均値の差」や「中央値の差」が用いられます。有効か無効か、といった二値データであれば、「リスク差」、「リスク比」、あるいは「オッズ比」が選択されます。死亡や再発までの時間を扱う生存時間データでは、「ハザード比」や「特定時点での生存率の差」などが一般的な要約指標となります。
近年では、「ウィン・レシオ(Win Ratio)」のような、より複雑な階層的複合評価項目を要約するための新しい指標も開発されています 20。これは、死亡のようなより重要なイベントを優先して患者間を比較する手法であり、複数のアウトカムの重要度が異なる場合に有用です。どの要約指標を選ぶかによって、治療効果の表現のされ方や、その臨床的なインパクトの伝わり方が変わるため、慎重な選択が求められます。
介入後イベント(Intercurrent Events, ICEs)の扱い
第5の柱は、Estimandの概念において最も革新的かつ重要な要素であり、介入開始後に発生し、変数の測定や解釈に影響を与えうる出来事、すなわち「介入後イベント(Intercurrent Events, ICEs)」をどのように扱うかの戦略を定義することです 1。臨床試験は、計画通りに完璧に進むことの方が稀です。副作用による治療中止、効果不十分による代替治療の開始、試験とは無関係な理由による死亡など、様々なICEが発生します 3。これらのICEをどう扱うかによって、最終的に推定される「治療効果」の意味が根本的に変わってしまうため、事前に明確な戦略を定めておくことが不可欠です。
ICH E9(R1)では、ICEを扱うための主要な5つの戦略が提示されています。どの戦略を選択するかは、研究が答えようとする科学的な問いそのものを定義する行為に他なりません 8。
第一に、「治療方針(Treatment Policy)」戦略があります。これは、ICEの発生の有無にかかわらず、最初に割り付けられた治療方針を継続するという観点から効果を評価します。例えば、副作用で服薬を中止した患者も、その後の経過を含めて最初の割り付け群のメンバーとして解析します。これは、「この治療法を導入するという方針は、実臨床においてどのような結果をもたらすか?」という、非常に実践的でプラグマティックな問いに答えるものです 9。
第二に、「仮説的(Hypothetical)」戦略です。これは、「もしICEが発生しなかったとしたら」という仮説的な状況下での治療効果を推定します。例えば、「もし全ての患者が割り付けられた薬剤を完全に服用し続けられたとしたら、その純粋な薬理学的効果はどのようなものか?」という、より理想的な条件下での効果を問います。この戦略は、薬の「有効性(efficacy)」を評価するのに適していますが、その推定には統計的なモデル化や追加の仮定が必要となる場合があります 9。
第三に、「複合変数(Composite Variable)」戦略です。これは、ICEの発生自体を評価項目の一部として組み込むアプローチです。例えば、「治療を中止することなく、かつ血圧目標値を達成する」ことをもって「有効」と定義します。これにより、「治療を完遂し、かつ目標を達成できた患者の割合はどのくらいか?」という、治療の忍容性と有効性を統合した問いに答えることができます 9。
第四に、「治療中(While on Treatment)」戦略です。これは、ICEが発生するまでの期間のデータのみを用いて効果を評価します。例えば、「割り付けられた治療を受けている間だけの効果はどうか?」という問いに対応しますが、ICEの発生自体が治療効果と関連している場合(例えば、効果のない患者ほど治療を中止しやすい場合)、結果の解釈が非常に難しくなり、バイアスを生じやすいため、その適用には細心の注意が必要です 10。
第五に、「主要層別(Principal Stratum)」戦略です。これは、ICEを発生させるか否かという、患者が潜在的に持つ特性によって定義される部分集団(主要層)における治療効果を推定する、非常に高度なアプローチです。例えば、「どのような治療を割り付けられても副作用で中止することのないタイプの患者集団における治療効果は何か?」といった、極めて特定の科学的問いに答えるために用いられます 10。
これら5つの柱、すなわち対象集団、変数、介入、要約指標、そしてICEの扱い方を、研究の科学的目的と照らし合わせながら一つ一つ丁寧に定義し、組み合わせることで、初めて一つの明確なEstimandが構築されます。このプロセスこそが、信頼性が高く、解釈のブレがない研究結果を得るための、そして科学的な対話を可能にするための、決定的に重要な第一歩となるのです。
主要なEstimandの種類
Estimandのフレームワークが問いを精密化するための構造を提供する一方で、因果推論の世界では、歴史的に特定の種類の問い、すなわち特定のEstimandが繰り返し議論されてきました。これらは主に、反実仮想(counterfactual)という概念を基盤としており、「誰にとっての効果」を評価したいかという視点の違いを反映しています。ここでは、その代表的な種類を探求します。
因果推論の反実仮想的基礎
Estimand、特に因果関係の解明を目指すEstimandを理解するためには、その根底にある「反実仮想(counterfactual)」あるいは「潜在アウトカム(potential outcome)」の考え方を把握することが不可欠です 25。この枠組みは、因果効果を数学的・統計的に定義するための理論的基盤を提供します。
反実仮想とは、「もし〜であったなら、どうなっていただろうか」という、事実に反する仮定の状況を思考することです 25。因果推論の文脈では、これを個々の対象に適用します。例えば、ある患者iについて、2つの潜在的なアウトカムを考えます。一つは、もし患者iが治療Aを受けたと仮定した場合のアウトカム、これを$Y_i(1)
と表記します。もう一つは、もし同じ患者iが対照となる治療B(または無治療)を受けたと仮定した場合のアウトカム、これをY_i(0)$と表記します。
この枠組みにおける「個人における因果効果(individual causal effect)」は、この2つの潜在アウトカムの差、すなわち$Y_i(1) - Y_i(0)として定義されます。これは、ある個人にとって、治療Aを受けることと受けないことの純粋な効果を表します。しかし、ここには「因果推論の根本問題(fundamentalproblemofcausalinference)」が存在します。現実世界では、我々は同じ個人に対して、同じ時間軸で両方の治療を同時に施し、両方のアウトカムを観測することはできません[25]。患者iは実際に治療Aか治療Bのどちらか一方しか受けず、我々が観測できるのはY_i(1)かY_i(0)$のどちらか一方のみです。観測されなかった方は、永遠に失われた反実仮想となります。
この根本問題のため、個人レベルでの因果効果を直接測定することは不可能です。そこで、我々は視点を個人から集団へと移し、「集団における平均的な因果効果」を推定することを目指します。これから紹介する様々な種類のEstimandは、すべてこの潜在アウトカムの集団平均をどのように定義し、比較するかに基づいています 29。
集団全体への視点:平均処置効果(ATE)
最も基本的な因果Estimandの一つが、「平均処置効果(Average Treatment Effect, ATE)」です 31。ATEは、ある定義された対象集団全体における、個人の因果効果の平均値として定義されます。潜在アウトカムの表記を用いると、ATEは数式で$E[Y_i(1) - Y_i(0)]$と表現されます。ここで、$E[\cdot]$は集団全体での期待値(平均)を意味します。
この定義が問いかけるのは、「もし、対象集団の全員が介入を受けたと仮定した場合の平均アウトカムと、もし、その集団の誰もが介入を受けなかったと仮定した場合の平均アウトカムの差は何か?」ということです 27。これは、その介入が社会や集団全体に与える潜在的な影響の総量を評価しようとするものです。
ATEが特に関心を持たれるのは、ワクチン接種プログラムの公衆衛生的効果や、新しい税制が経済全体に与える影響など、集団全体に対する介入の効果を評価したい政策決定の場面です 27。ATEは、介入を実際に受けたかどうかに関わらず、集団内の全ての人を対象として平均化するため、その介入の「一般的な有効性」や「ポテンシャル」を示す指標と解釈できます。
ただし、ATEの解釈には注意が必要です。ATEは理論上は非常に明快な概念ですが、介入を受ける可能性が低い、あるいは全くない人々も含めて平均化されるため、その値が特定の個人やサブグループにとっての効果を直接反映しているとは限りません 32。例えば、ある教育プログラムのATEが正の値を示したとしても、学習意欲の極めて低い生徒にとっては効果がないかもしれません。ATEはあくまで集団全体での平均的なリフトアップを示す指標です。
参加者に焦点を当てた視点:処置群における平均処置効果(ATT)
ATEが集団全体を対象とするのに対し、「処置群における平均処置効果(Average Treatment Effect on the Treated, ATT)」は、より焦点を絞った問いに答えます 31。ATTは、実際に介入を受けた人々の部分集団における、平均的な因果効果として定義されます。数式では、
Eと表現されます。ここで、Di=1は個人iが実際に介入を受けたことを示す指標です。
ATTが問いかけるのは、「実際に介入を受けた人々にとって、その介入の効果は平均してどれくらいだったか?」です。これは、「彼らが介入を受けた場合の実際のアウトカム」と、「もし彼らが介入を受けていなかったとしたらどうだったかという反実仮想のアウトカム」との平均的な差を意味します 33。
ATTは、特定のプログラムやサービスの参加者にとっての直接的な便益を評価したい場合に特に有用です。例えば、「新しい職業訓練プログラムに参加した失業者は、もし参加していなかった場合と比べて、平均してどれくらい再就職率が向上したか?」といった問いは、ATTによって評価されます。
ATEとATTの重要な違いは、効果を評価する対象集団にあります。ランダム化比較試験(RCT)が適切に行われた場合、介入群と対照群は統計的に同質であるため、ATEとATTは理論的に一致します。しかし、観察研究のように人々が自らの意思で介入を受けるかどうかを選択する状況では、介入を受けた人々と受けなかった人々の間には、元々何らかの系統的な違い(例えば、モチベーションの高さ、健康意識、疾患の重症度など)が存在する可能性があります。これを「選択バイアス」と呼びます。この場合、ATEとATTは異なる値を取り得ます。ATTは介入を受けた人々に特化した効果を示しますが、その結果を介入を受けなかった人々や集団全体にそのまま一般化することはできない点に留意が必要です 33。
実践的な視点:Intention-to-Treat(ITT)原則に基づくEstimand
「Intention-to-Treat(ITT)」は、厳密にはEstimandの名称そのものではありませんが、特にランダム化比較試験(RCT)において、ある特定のEstimandに対応する極めて重要な分析原則です 21。ITT原則は、患者が実際にどのような治療を受けたかや、プロトコルを遵守したかどうかにかかわらず、「最初にランダムに割り付けられた治療群」に基づいて比較・分析を行うことを要求します 36。
この原則が対応するEstimandは、第2章で述べたICEの扱い方における「治療方針(Treatment Policy)」戦略を用いたものです 21。ITT原則に基づく分析が答えようとする問いは、「新薬Aを投与するという治療方針(戦略)は、プラセボを投与するという治療方針と比較して、全体としてどのような結果をもたらすか?」というものです。この問いには、途中で服薬を中止する人や、他の治療に切り替える人がいるといった、実臨床で起こりうる全ての事象を含んだ上での効果、というニュアンスが含まれます 37。
ITT原則の最大の利点は、ランダム化によって保証された群間の比較可能性を最後まで維持することにあります。治療開始後に発生した事象(例えば、効果がないと感じた患者の脱落)に基づいて分析対象から患者を除外すると、ランダム化の利点が失われ、深刻なバイアスが生じる可能性があります 36。ITT分析は、このバイアスを回避し、治療「戦略」の効果を公平に評価するための、最も保守的で信頼性の高いアプローチとされています。
ただし、ITTが示す効果は、その治療戦略の「実用的な効果(effectiveness)」であり、「もし全ての患者が割り付け通りに治療を完璧に遵守した場合の純粋な薬理学的効果(efficacy)」とは異なる場合があることを理解する必要があります 36。後者のような問いに答えたい場合は、次に述べるような、より特殊なEstimandを検討することになります。
遵守者における因果効果:CACEとLATEというEstimand
RCTにおいて、割り付けられた治療方針を全ての参加者が遵守するとは限りません。一部の参加者は、割り付けに反して治療を受けなかったり(治療群での非遵守)、あるいは対照群であるにもかかわらず何らかの形で治療を受けたりします(対照群での非遵守)。このような状況で、「割り付けられた治療を実際に遵守した人々における治療効果は何か?」という、より精緻な問いに答えるのが「遵守者平均因果効果(Complier Average Causal Effect, CACE)」あるいは「局所的平均処置効果(Local Average Treatment Effect, LATE)」と呼ばれるEstimandです 34。
このEstimandの対象となるのは、「遵守者(complier)」と呼ばれる特定の部分集団です。遵守者とは、「もし治療群に割り付けられたら治療を受け、もし対照群に割り付けられたら治療を受けない」という行動パターンを持つ人々と定義されます 34。CACE/LATEは、この遵守者集団における平均的な因果効果、
E[Yi(1)−Yi(0)∣個人iは遵守者]、を推定するものです。
CACE/LATEの推定には、通常、「操作変数(Instrumental Variable, IV)法」という統計手法が用いられます。この文脈では、ランダムな治療割り当てそのものが「操作変数」として機能します 34。直感的には、ITT効果(治療割り当ての効果)が遵守者によってのみもたらされるという考えに基づき、ITT効果を遵守者の割合で割り戻すことで、遵守者における効果を推定します 37。
CACE/LATEは、治療方針の効果(ITT)と純粋な薬理学的効果の間に位置する、興味深いEstimandです。ITTよりも治療の「有効性」に近い概念ですが、その推定には「単調性(monotonicity)」(割り当てによって治療を受ける方向にはなっても、その逆はない)や「除外制約(exclusion restriction)」(治療割り当ては、実際の治療を受けるという経路以外では結果に影響しない)といった、ITTよりも強い仮定が必要となります 36。
これらのEstimand、すなわちATE、ATT、ITT、CACE/LATEは、同じデータセットからでも異なる問いに答えるため、異なる値を取り得ます。どのEstimandを選択するかは、研究者が「その研究を通じて、本当に何を知りたいのか」という根源的な問いに立ち返り、研究の文脈と目的に最も合致するものを選ぶことが極めて重要です。そして、その選択が、研究デザイン、データ収集、分析手法の全ての側面を方向づけることになるのです。
実践におけるEstimand
Estimandの概念は、単なる理論的な整理にとどまらず、臨床研究の現場において極めて実践的な意味を持ちます。Estimandを明確に定義するか否かは、研究の計画、実施、解釈の全ての段階に影響を及ぼし、その結果として得られる知見の質と信頼性を根本から左右します。ここでは、具体的なシナリオを通じて、Estimandが持つ「威力」と、それが欠如した場合の「怖さ」を検証します。
曖昧さがもたらすリスク:二つの臨床試験
新しい高血圧治療薬「クスリナオールX」の長期的な有効性と安全性を評価するため、3年間にわたる大規模なランダム化比較試験を計画する状況を想定します。この試験の目標は、「クスリナオールXがプラセボと比較して、心血管イベントのリスクを低減できるか」を知ることです。長期試験では、様々な介入後イベント(ICE)の発生が予測されます。例えば、副作用による服薬中止、効果不十分による他剤の追加、試験とは無関係な原因による死亡などが挙げられます。これらのICEの扱いが、試験の成否を分ける鍵となります。
シナリオ1:Estimandが明確に定義されている場合
このシナリオの研究チームは、試験計画の初期段階で、臨床医、統計家、規制当局関係者などとの議論を重ね、主要な科学的問い、すなわちEstimandを以下のように明確に定義しました。
明確なEstimandの定義
「対象集団は、心血管イベントのリスク因子を1つ以上有する50歳以上の中等症から重症の高血圧患者とする。介入は、クスリナオールXを1日1回10mg、3年間投与する治療方針とし、プラセボを投与する治療方針を対照とする。評価する変数は、3年後の収縮期血圧のベースラインからの変化量とする。集団レベルの要約指標は、両群における変化量の平均値の差とする。介入後イベントの扱いとして、理由の如何を問わず割り付けられた治療を中止した場合や、プロトコルで禁止された降圧薬を追加した場合でも、それらの患者は最初に割り付けられたグループのメンバーとして解析に含めるという『治療方針(Treatment Policy)』戦略を採用する。」
この明確な定義は、研究プロセス全体にわたって多大な利益をもたらします。
第一に、研究デザインが最適化されます。「何を知りたいか」が明確であるため、それに合わせて患者選択基準、評価項目の設定、必要な症例数などを合理的に計画できます。特に、治療方針戦略を採用することが決まっているため、治療を中止した患者からも3年後のデータを収集し続ける必要があることが計画段階で明確になり、それに応じた追跡計画を立てることができます 9。
第二に、解析計画が事前に確定します。ICEが発生した場合のデータの扱い方が事前に決まっているため、解析段階で結果に都合の良いように解析対象者を選んだり除外したりする恣意的な判断が介入する余地がありません。この方針は、統計解析計画書(SAP)に明記され、研究の客観性を担保します 40。
第三に、結果の解釈に一貫性が生まれます。例えば、「クスリナオールX群はプラセボ群に比べて平均で5mmHg多く血圧が低下した」という結果が得られた場合、この数値が「服薬中止などの現実を含んだ上での治療方針としての効果」を意味することが誰にとっても明確であり、解釈のブレが生じにくくなります。
第四に、バイアスのリスクが低減されます。特に、結果に影響されやすいICEの扱いを事前に定めることで、脱落バイアス(Attrition bias)や選択バイアスといった、試験の妥当性を損なう可能性のあるバイアスのリスクを大幅に抑制できます。
第五に、あらゆる関係者とのコミュニケーションが円滑になります。研究チーム内での認識が統一されるだけでなく、規制当局(PMDAやFDA)への承認申請、学会発表、論文投稿、そして臨床現場の医師や患者への情報提供に至るまで、「この研究が何を明らかにしたのか」を誤解なく、正確に伝えることが可能になります 6。これは、研究の透明性と再現性を高め、科学全体の進歩に貢献します。
シナリオ2:Estimandが曖昧な(定義されていない)場合
こちらのシナリオでは、研究チームの目標は「クスリナオールXの効果を評価する」という漠然としたもので、具体的なEstimandは定義されていませんでした。この曖昧さは、深刻な問題を引き起こす連鎖の始まりとなります。
第一に、データ収集と解析の方針が迷走します。試験が進み、副作用で服薬を中止する患者や、効果がないと感じて別の降圧薬を追加する患者が現れた時点で、「さて、これらの患者のデータをどう扱うべきか?」という議論が始まります。ある研究者は「副作用で中止した患者は、薬が合わなかったのだから解析から除外すべきだ」と主張するかもしれません。しかし、これは「副作用が出にくい人に限定した効果」を見てしまうことになり、バイアスを生みます。また、別の研究者は「効果がなくて他剤を追加した患者も除外すべきだ」と提案するかもしれません。しかし、これは「効果があった患者だけ」を選択的に評価することにつながりかねません 7。
第二に、結果の解釈が混乱します。明確なルールがないため、複数の異なる方法で解析が試みられ、それぞれ異なる結果が算出される可能性があります。ある解析では統計的に有意な差が見られ、別の解析では見られないといった事態が生じると、「結局、この薬は効くのか、効かないのか?」という問いに対する答えが分からなくなります。最悪の場合、研究者に都合の良い結果だけが強調され、p-hackingと呼ばれるような、科学的に不誠実な行為につながるリスクも高まります。
第三に、研究の再現性が失われます。科学的知見の信頼性は、他の研究者が同じ手順を追試して同様の結果が得られること、すなわち再現性によって担保されます。しかし、元の研究が「どのような問いに答えようとしたのか」というEstimandが不明確であれば、追試の設計自体が困難になります。これは研究の透明性を著しく損ない、科学コミュニティにおける知見の蓄積を妨げます。
第四に、他の研究との比較や統合が困難になります。ある疾患領域で複数の研究が行われても、それぞれの研究が暗黙のうちに異なるEstimandに基づいている場合、それらの結果を単純に比較したり、メタアナリシスによって統合してより確かな結論を導いたりすることができなくなります。貴重な研究成果が断片的な情報のままとなり、分野全体の進歩が停滞する原因となります。
第五に、そして最も深刻な問題として、誤った医療判断や政策決定につながるリスクがあります。信頼性の低い研究結果に基づいて、効果のない、あるいは有害な可能性のある治療法が承認され、臨床現場で広く使われてしまう可能性があります。また、効果の乏しい公衆衛生政策に多額の公的資金が投じられ続けるかもしれません。これは、患者の健康と安全を直接脅かすだけでなく、限りある医療資源や社会資本の浪費につながり、社会全体に大きな損失をもたらします。
このように、Estimandを明確に定義することは、単なる学術的な手続きの問題ではなく、研究の科学的妥当性を保証し、ひいては人々の健康と社会の福利を守るための、不可欠な責務なのです。
現場からの教訓:規制と研究におけるケーススタディ
Estimandの重要性は、理論上の議論だけでなく、実際の医薬品開発や臨床研究の事例を通じて、より具体的に理解することができます。ここでは、Estimandの考え方がどのように実践的な課題を浮き彫りにし、また解決に導くかを示すケーススタディを検証します。
ケーススタディ1:ダパグリフロジンを巡る見解の相違
II型糖尿病治療薬であるダパグリフロジンの臨床試験は、Estimandの定義、特に介入後イベント(ICE)の扱いが明確でなかったために、開発企業(スポンサー)と規制当局(FDA)の間で深刻な見解の相違が生じた象徴的な事例です 7。
この試験の主要評価項目は、ベースラインから24週後までのHbA1c(血糖コントロールの指標)の変化量でした。糖尿病の臨床試験では、倫理的な配慮から、血糖コントロールが一定の基準以上に悪化した患者に対して、プロトコルで定められた追加の治療薬(救済治療)の投与が許可されるのが一般的です。この試験でも同様の規定があり、当時の標準的な解析手法として、救済治療を開始した患者については、その開始後のデータは解析から除外し、救済治療開始直前の最後の測定値を24週時点の値として扱う(Last Observation Carried Forward, LOCF)という方法が計画されていました 7。
問題は、この「救済治療の開始」というICEの扱いについて、スポンサーとFDAが暗黙のうちに異なる科学的問い(Estimand)を想定していたことでした 7。
スポンサーが想定していたEstimandは、「もし救済治療というICEが起こらなかったとしたら、ダパグリフロジンの純粋な効果はどうか?」という「仮説的(Hypothetical)」戦略に近いものでした。そのため、救済治療開始後のデータは、ダパグリフロジンの純粋な効果を反映しないと考え、収集も不要と判断していました。
一方、FDAが関心を持っていたEstimandは、「ダパグリフロジンを投与し、必要に応じて救済治療を行うという治療方針は、対照群の方針と比較してどのような結果をもたらすか?」という「治療方針(Treatment Policy)」戦略に近いものでした。そのため、FDAは救済治療の開始後も24週時点のデータを収集し、その情報を含めて治療方針全体を評価すべきだと考えていました 7。
両者ともに「全ランダム化患者」を対象とするという点では一致しているように見えましたが、ICEの扱いに関する根本的な考え方の違いから、評価すべき「治療効果」の定義そのものが異なっていました。この認識のずれは、試験計画、特にデータ収集計画の不備につながり、最終的に規制当局とのコミュニケーションに大きな障害をもたらしました。この事例は、ICEの扱い方を事前に明確に定義し、全ての関係者間で合意することの重要性を痛切に物語っています。
ケーススタディ2:PIONEER 1試験における複数Estimandの活用
前述の事例とは対照的に、経口セマグルチドのPIONEER 1試験は、Estimandフレームワークを積極的に活用し、複数の問いに答えることで研究の価値を高めた好例として挙げられます 41。
この試験では、主要な目的のために、事前に2つの異なるEstimandが明確に定義されました。
Estimand 1は、「治療方針」戦略に基づくものでした。これは、治験薬の服用を中止したり、救済治療を開始したりといったICEが発生した場合でも、それらの事象を含めて治療方針としての効果を評価するものです。このEstimandは、実臨床での使用状況に近い、プラグマティックな問いに答えることを目的としていました。主要な有効性の主張や規制当局への承認申請は、このEstimand 1に基づいて行われました 41。
Estimand 2は、「仮説的」戦略に近い考え方に基づくものでした。これは、もしICEが発生しなかったと仮定した場合の治療効果を推定するものです。このEstimandは、他の競合薬の臨床試験で採用されている解析方法と結果を比較可能にすること、そして薬剤のより純粋な薬理学的効果に関する情報を提供することを目的としていました 41。
PIONEER 1試験は、このように2つの異なる科学的問いをEstimandとして明確に区別し、それぞれに対応する解析を行うことで、一つの試験から多角的な情報を提供することに成功しました。Estimand 1は規制上の主要な問いに答え、Estimand 2は科学的な理解を深め、他の研究との比較を容易にしました。このアプローチは、Estimandフレームワークが単に曖昧さを排除するだけでなく、研究の目的を多層的に設定し、その価値を最大化するための強力なツールとなりうることを示しています。
ケーススタディ3:がん領域における生存期間解析の課題
がん領域の臨床試験、特に生存期間を評価項目とする試験では、Estimandの考え方が極めて重要となります。主要評価項目としてしばしば用いられる「全生存期間(Overall Survival, OS)」は、患者にとって最も重要なアウトカムですが、その解釈は後続治療によって複雑化することがあります 42。
例えば、ある新薬Aの試験で、病勢進行後に患者が対照群から新薬A群へ移行すること(クロスオーバー)や、あるいは両群の患者が全く新しい有効な薬剤Bを後続治療として受けることが可能であったとします。この場合、観測されるOSは、新薬Aの一次治療としての効果だけでなく、後続治療の効果も混在したものとなります。
ここでEstimandを明確に定義することが役立ちます。もし問いが「新薬Aを一次治療として導入し、その後の治療は実臨床に任せるという治療方針の効果は何か?」であれば、「治療方針」戦略に基づき、クロスオーバーや後続治療の発生を許容した上でOSを比較することになります。
一方で、もし問いが「もし後続治療がなかったとしたら、新薬Aの一次治療としての純粋な効果は何か?」であれば、「仮説的」戦略を用いることになります。この推定は統計的に困難を伴いますが、より純粋な効果を評価しようとする試みです。
また、「無増悪生存期間(Progression-Free Survival, PFS)」のような評価項目では、病勢進行後の治療中止や後続治療の開始といったICEを「イベント」として定義する「複合変数」戦略がしばしば用いられます 43。これにより、解釈の曖昧さを減らすことができます。がん領域におけるこれらの複雑なシナリオは、研究の目的をEstimandとして精密に記述することが、得られる結果の科学的価値を決定づけることを明確に示しています。
推定の技術と科学:データから問いに答える
Estimandが「知りたいことの精密な定義」であるならば、次のステップは、その定義された問いに対する答えを、実際のデータを用いて導き出すことです。このプロセスは、「Estimandの定義」という計画段階から、「Estimandの推定」というデータ解析段階へと移行します。この二段階のプロセスは、信頼性の高い科学的知見を生み出すための車の両輪です。
定義から推定へ:二段階のプロセス
研究プロセスは、Estimandを軸として、大きく2つのステップに分けられます。この構造化されたアプローチは、研究の目的と方法論との間に強固な連携を確保します 44。
ステップ1:Estimandを定義する(研究計画段階)
これは、データ収集を開始する前の、研究の概念設計段階です。このステップの目的は、「この研究を通じて、我々は何を明らかにしたいのか?」という科学的な問いを、前述したEstimandの5つの属性(対象集団、変数、介入、要約指標、ICEの扱い)を用いて、曖昧さなく言語化・構造化することです。
このプロセスは、単独の研究者の思考の中だけで完結するものではありません。臨床医、生物統計家、疫学者、薬物動態学者、そして場合によっては患者代表や規制当局の担当者など、多様な専門性を持つステークホルダー間での集中的な議論を必要とします 9。臨床医は臨床的な意義の観点から、統計家は推定の実現可能性と必要な仮定の観点から、それぞれ意見を出し合います。例えば、あるICEに対して「仮説的」戦略を選択することが臨床的に最も興味深い問いであったとしても、その推定に必要な仮定が非現実的であったり、必要なデータを収集することが不可能であったりすれば、そのEstimandは実現不可能です。
このように、Estimandの定義は、科学的な理想と実践的な制約との間の対話を通じて行われます。この段階で定義されたEstimandは、治験実施計画書(プロトコル)に明確に記載され、研究全体の道しるべとなります 40。
ステップ2:Estimandを推定する(データ収集・分析段階)
Estimandが明確に定義されると、研究は次の段階、すなわち、そのEstimandが示す「真の値」を実際のデータから計算する「推定(estimation)」のフェーズに移ります。このステップでは、定義されたEstimandと、それを計算するための統計手法(Estimator、推定量)、そしてデータから得られる具体的な数値(Estimate、推定値)が区別されます 45。
まず、データ収集は、ステップ1で定義されたEstimandに沿って行われます。例えば、ICEの扱いとして「治療方針」戦略が選択された場合、治験薬の投与を中止した患者についても、プロトコルで定められた期間の最後まで評価項目のデータを収集し続ける必要があります 9。
次に、収集されたデータを用いて、Estimandを計算するための統計モデル(Estimator)を選択し、適用します。重要なのは、選択される統計手法が、定義されたEstimand、特にICEの扱い方と整合性が取れていることです。例えば、「仮説的」戦略に基づくEstimandを推定するためには、単にICE後のデータを無視するのではなく、それらのデータが欠測しているメカニズムを考慮した、より高度な統計モデルが必要となります。
最終的に、選択した統計モデルをデータに適用することで、Estimandの具体的な推定値(例えば、平均血圧の差は-5mmHg)とその不確実性の範囲(例えば、95%信頼区間は-7mmHgから-3mmHg)が算出されます。この得られた推定値が、ステップ1で定義された科学的な問いに対する、データに基づいた答えとなります。この一連のプロセスを経ることで、研究の問いと答えが論理的に一貫し、その結論の信頼性が保証されるのです。
因果推定のために
Estimandをデータから推定するためには、様々な統計的手法が用いられます。これらの手法は、それぞれが特定の仮定に基づいており、異なる種類のEstimandやデータ構造に対応するように設計されています。ここでは、主要な統計ツールとその概念的な役割を概説します。
回帰分析は、最も広く用いられる手法の一つです。線形回帰、ロジスティック回帰、Cox比例ハザードモデルなど、様々な形態があります。これらのモデルは、介入(治療)の効果を推定すると同時に、年齢や性別、病気の重症度といった他の共変量の影響を統計的に調整することができます。これにより、交絡因子の影響を減らし、より純粋な介入効果を分離することが可能になります。
特に縦断的データ(同一の被験者を時間的に繰り返し測定するデータ)の解析では、「混合効果モデル(Mixed Models for Repeated Measures, MMRM)」が頻繁に用いられます 21。MMRMは、個々の被験者内のデータの相関を考慮しつつ、時間経過に伴う変化をモデル化します。このモデルは、データが「ランダムに欠測している(Missing at Random, MAR)」という仮定の下で、脱落した被験者がいてもバイアスのない推定値を与えることができます。ただし、このMARという仮定が、選択したEstimandの戦略と整合しているかを慎重に検討する必要があります 9。
欠測データへの対応策として、「多重代入法(Multiple Imputation, MI)」も強力なツールです 9。MIは、欠測している値をもっともらしい複数の値で補完(代入)し、それぞれで解析を行った結果を統合する手法です。これにより、欠測の不確実性を適切に評価に反映させることができます。MIの利点はその柔軟性にあり、代入モデルを工夫することで、「治療方針」戦略や「仮説的」戦略など、様々なEstimandに対応する推定を行うことが可能です 21。
観察研究においては、「傾向スコア(Propensity Score)」を用いた手法が中心的な役割を果たします。傾向スコアは、個々の被験者の背景情報に基づいて、その人が介入群に割り付けられる確率を算出したものです。このスコアを用いてマッチングや層別化、重み付けを行うことで、介入群と対照群の背景特性を疑似的に揃え、選択バイアスを低減し、ATEやATTの推定を目指します 35。
最後に、測定されていない交絡因子の存在が疑われる場合に用いられる高度な手法として、「操作変数(Instrumental Variable, IV)法」があります。RCTにおけるランダム割り当てを操作変数として用いることで、治療の遵守・不遵守といった内生的な選択の影響を受けない、CACE/LATEといった因果効果を推定することが可能になります 36。
これらの統計ツールは、それぞれが特定のEstimandを推定するための「Estimator(推定量)」として機能します。統計家は、定義されたEstimandの特性を深く理解し、その推定に最も適した、かつ必要な仮定が満たされる可能性が最も高い手法を選択する責任を負います。
バイアスと分散のトレードオフ
あるEstimandを推定するための統計手法(Estimator)を選択する際、統計家は常に「バイアス(bias)」と「分散(variance)」という2つの要素の間のトレードオフに直面します。このトレードオフを理解することは、なぜ単一の「完璧な」分析方法が存在しないのか、そしてなぜ感度分析が重要なのかを把握する上で不可欠です。
バイアスとは、推定値が平均的に「真の値(Estimand)」からどれだけ体系的にずれているかを示す指標です。バイアスのない推定量を「不偏推定量」と呼び、これは統計的に望ましい性質とされます。一方、分散とは、データを取り直すごとに推定値がどれだけばらつくかを示す指標です。分散が小さいほど、推定はより精密(precise)であると言えます。
理想的な推定量は、バイアスも分散も小さいものです。しかし、現実には、この2つはしばしばトレードオフの関係にあります。一方を小さくしようとすると、もう一方が大きくなる傾向があるのです。
このトレードオフは、介入後イベント(ICE)を伴う臨床試験の解析において特に顕著になります。あるシミュレーション研究では、「治療方針」戦略に基づくEstimandを推定するために、いくつかの異なる統計モデルの性能が比較されました 21。
その研究で検証された一つ目のアプローチは、ICEの発生を無視して、単純な混合効果モデル(MMRM)や多重代入法(MI)を適用するものでした。このアプローチは、推定値の分散は比較的小さく抑えられましたが、ICE後のデータが欠測する割合が増えるにつれて、深刻なバイアスが生じることが示されました。つまり、精密ではあるものの、体系的に誤った答えを導き出す危険性がありました 21。
二つ目のアプローチは、「Retrieved Dropout(RD)」と呼ばれる、より複雑なモデルでした。このモデルは、ICEの発生を考慮して欠測値を補完するため、バイアスは大幅に低減されました。しかし、その代償として、モデルが複雑になることで推定値の分散が著しく増大しました。これは、バイアスは小さいものの、結果が非常に不安定で不正確になることを意味し、研究の検出力(真の効果を検出する能力)を低下させる可能性があります 21。
この状況は、研究者が直面するジレンマを明確に示しています。バイアスを避けるために複雑なモデルを選択すれば、分散が大きくなり、意味のある結論を得られないかもしれません。一方で、分散を抑えるために単純なモデルを選択すれば、バイアスのある誤った結論に導かれるかもしれません。
このトレードオフの存在は、なぜ研究計画の段階で主要な解析方法を一つに定めておくこと(事前指定)が重要なのかを物語っています。それは、データを見てから都合の良い結果を出すモデルを選ぶという、恣意的な判断を防ぐためです。研究者は、利用可能な情報に基づいて、バイアスと分散のバランスが最も合理的と考えられる一つの手法を「最善の賭け」として選択し、それを主要な解析方法として事前に宣言します。そして、その「賭け」が外れていた可能性を探るために、次に述べる感度分析を実施するのです。
頑健性の確保:感度分析の役割
臨床試験の主要な結論は、通常、事前に計画された一つの主要な解析に基づいて導き出されます。しかし、その解析は、欠測データのメカニズムや統計モデルの形式など、検証不可能な仮定の上に成り立っています 9。もし、これらの仮定が現実と異なっていた場合、導き出された結論は信頼できるものでしょうか。この問いに答えるための重要な手続きが「感度分析(sensitivity analysis)」です。
感度分析とは、主要な解析で用いた仮定を意図的に変更し、それでもなお結論が変わらないかどうかを評価する一連の分析のことです 5。その目的は、より良い結果や統計的に有意な結果を見つけ出すことではなく、主要な結論の「頑健性(robustness)」、すなわち、仮定の小さな変化に対して結論がどれだけ安定的であるかを確認することにあります 9。
感度分析の設計は、主要な解析がどのような仮定に依存しているかを特定することから始まります。例えば、介入後イベント(ICE)を伴う縦断的研究の主要解析が、データが「ランダムに欠測している(MAR)」と仮定する混合効果モデル(MMRM)に基づいているとします。このMARという仮定は、データからは証明不可能です。そこで感度分析として、MARとは異なる、より厳しい欠測メカニズム(例えば、「ランダムでない欠測(MNAR)」)を仮定したモデルを用いて解析を行います。もし、この感度分析でも主要な解析と同様の結論(例えば、治療効果の方向性や大きさ)が得られれば、元の結論は欠測データの仮定に対して頑健であると言え、その信頼性は高まります。逆に、仮定を少し変えただけで結論が大きく覆るようであれば、その結論は特定の仮定に強く依存した脆弱なものであると解釈されます。
ICH E9(R1)のフレームワークでは、Estimandの定義、主要な推定量(main estimator)の選択と並行して、その推定の妥当性を評価するための感度分析を事前に計画することが強く推奨されています 2。例えば、ICEの扱いについて、「仮説的」戦略を主要なEstimandとして選択した場合、その推定には強い仮定が必要となることが多いです。そのため、感度分析として、より仮定の少ない「治療方針」戦略に基づくEstimandを評価することが考えられます。
感度分析は、統計的な不確実性に対する科学者の誠実な態度を示すものです。単一の解析結果を絶対的な真実として提示するのではなく、その結論がどのような仮定の範囲内で妥当であるかを検証し、その限界を明らかにすることで、研究全体の透明性と信頼性を向上させるのです。
共通言語としてのEstimand
Estimandのフレームワークは、研究の計画から解釈に至るまでのプロセスを構造化し、科学的な問いを明確にするための強力なツールです。この最終部では、これまでの議論を統合し、Estimandを研究文書にどのように落とし込み、そしてこの考え方が今後どのように発展していくのかを展望します。
文書化:プロトコルと報告書におけるEstimand
Estimandの概念がその真価を発揮するためには、それが思考の中に留まるだけでなく、研究に関連する主要な文書、特に治験実施計画書(プロトコル)と統計解析計画書(SAP)に明確かつ体系的に記述される必要があります。この文書化は、研究の透明性、再現性、そして関係者間の円滑なコミュニケーションを確保するための根幹をなします。
ICH E9(R1)ガイドラインは、プロトコルにおいて、主要な目的(primary objective)に対応する主要なEstimand(primary estimand)を明確に定義し、記述することを求めています 40。この記述には、Estimandを構成する5つの属性(対象集団、変数、介入、要約指標、ICEの扱い)がすべて含まれている必要があります。規制上の判断や重要な臨床的判断の根拠となる可能性のある副次的な目的についても、同様にEstimandを定義することが推奨されます。
実際の臨床試験のSAPでは、このEstimandの定義を具体的に反映したセクションが設けられるようになってきています 24。例えば、「2.4 Estimands」や「3.1.1 Primary Estimand」といった専用の項目を設け、そこで主要な問いを詳細に記述します。テンプレートやガイダンスも開発されており、例えば、各属性(治療、集団、変数、ICEの扱い、要約指標)を個別の項目としてリストアップし、それぞれについて具体的な定義を記述する形式が提案されています 40。
この詳細な記述は、研究の実施中に予期せぬ事態が発生した際にも重要な役割を果たします。例えば、COVID-19パンデミックのような大規模な外的要因は、当初計画していなかったICE(例:感染による来院不能)を発生させ、試験の実施に大きな影響を与えました 49。このような場合、事前に定義されたEstimandが、これらの新たなICEをどのように扱うべきか、そして当初の科学的な問いが依然として答えられる状態にあるのかを評価するための基準点となります。もし、当初のEstimandの推定が不可能になったと判断された場合、プロトコルの改訂を通じてEstimandを修正する必要が生じるかもしれません。その場合でも、変更の理由とその影響を明確に文書化することが、研究の科学的妥当性を維持するために不可欠です 14。
最終的に、臨床試験報告書(CSR)や公表される論文においても、評価されたEstimandを明確に記述することが求められます。これにより、読者はその研究が「どのような問いに答えたのか」を正確に理解し、結果を正しく解釈し、他の研究と比較することが可能になります。文書化は、Estimandという共通言語を実践に移すための、具体的かつ決定的な行動なのです。
適切に立てられた問いの力
本報告書を通じて探求してきたように、Estimandは、因果関係の探求という科学の根源的な営みにおいて、非常に強力かつ本質的な概念です。それは単に研究のゴールを定義する技術的な手続きに留まらず、研究プロセス全体の質を高め、我々が手にする情報の信頼性を向上させるための「設計図」であり、「共通言語」として機能します。
Estimandの重要性を要約すると、以下の点に集約されます。第一に、「何を知りたいか」を、対象集団、変数、介入、要約指標、そして介入後イベントの扱いという5つの側面から具体的に定義することで、科学的な問いを明確化します 10。第二に、この明確な定義は、研究の計画から分析、結果の解釈に至るまで、一貫性のある、ブレのないアプローチを可能にし、研究の透明性を高めます 1。第三に、特に介入後イベントの扱いを事前に定めることで、結果の解釈における恣意性を排除し、バイアスを低減させ、結論の客観的な信頼性を向上させます。第四に、研究者、規制当局、医療従事者、政策立案者といった多様なステークホルダーの間で、「我々は何について議論しているのか」という共通理解を促進し、円滑なコミュニケーションを可能にします 1。そして最後に、これらの利点は、医薬品開発、臨床研究、医療政策といった様々な実務の現場における意思決定の質を高めることに直結します 50。
Estimandの考え方は、今後さらに多くの分野でその重要性を増していくと予測されます。その影響は、医薬品開発の後期段階の検証的試験にとどまりません。例えば、最適な用量を見出すための早期開発段階の試験においても、有効性と安全性のトレードオフをどのように評価するかという問いをEstimandとして定義する試みが進められています 50。また、医学や薬学だけでなく、経済学、社会学、教育学など、因果関係の解明が求められるあらゆる学術領域での応用が期待されます。ランダム化比較試験だけでなく、リアルワールドデータを用いた観察研究においても、交絡因子をどう調整し、何を「効果」として推定するのかをEstimandとして明確に定義することが、より信頼性の高い知見を得るための鍵となります。
この記事を読まれた方々が、もし研究に携わる立場にあれば、自身の研究計画にEstimandの視点を取り入れることで、その研究の質を一段と高めることができるでしょう。もし医療や政策に関わる立場にあれば、提示されるエビデンスの背景にあるEstimandに関心を持つことで、その情報の真の意味をより深く理解することができるはずです。そして、一般の市民であっても、ニュースやメディアで報じられる様々な調査結果に対して、「この調査は、結局のところ、どのような問いに答えようとしたのだろうか?」と自問してみることは、情報化社会を生きる上でのリテラシーを高める上で非常に有益です。
Estimandは、複雑な現実の中から真実を探り出そうとする我々の営みにおいて、出発点がいかに重要であるかを改めて教えてくれます。それは、私たちがより確かな知識に基づき、より賢明な判断を下し、ひいてはより良い未来を築いていくための「問いの力」そのものを体現する概念であると言えるでしょう。
参考資料
- The estimands framework: a primer on the ICH E9(R1) addendum - The BMJ, https://www.bmj.com/content/bmj/384/bmj-2023-076316.full.pdf
- E9(R1) Statistical Principles for Clinical Trials: Addendum: Estimands and Sensitivity Analysis in Clinical Trials - FDA, https://www.fda.gov/media/108698/download
- Estimands – closing the gap between study design and analysis - Medical Writing, https://journal.emwa.org/patient-reported-outcomes/estimands-closing-the-gap-between-study-design-and-analysis/article/4148/estimands.pdf
- 《更新》PMDA/ICH E9(R1)ガイドライン説明会開催のお知らせ | GMP Platform, https://www.gmp-platform.com/article_detail.html?id=27004
- ADDENDUM ON ESTIMANDS AND SENSITIVITY ANALYSIS IN CLINICAL TRIALS E9(R1) - ICH, https://database.ich.org/sites/default/files/E9-R1_Step4_Guideline_2019_1203.pdf
- Full Schedule - DIA 2022 Global Annual Meeting, https://dia2022globalannualmeeting.sched.com/list/descriptions/
- Estimandの概要と がん臨床試験への適用 - 東京大学大学院 医学系 ..., https://biostatistics.m.u-tokyo.ac.jp/wp-content/uploads/2025/02/20250213symp01.pdf
- Estimands in Clinical Trials – An Illustration based on NASH - Forum for Collaborative Research, https://www.forumresearch.org/storage/documents/LiverForum/Estimands/Estimands_NASH_2019.pdf
- ICH E9(R1) 臨床試験におけるEstimandと感度分析, https://biostatistics.m.u-tokyo.ac.jp/wp-content/uploads/2019/09/pdf/20180727symp03.pdf
- ICH E9 (R1) addendum on estimands and sensitivity analysis in clinical trials to the guideline on statistical principle - European Medicines Agency, https://www.ema.europa.eu/en/documents/scientific-guideline/ich-e9-r1-addendum-estimands-and-sensitivity-analysis-clinical-trials-guideline-statistical-principles-clinical-trials-step-5_en.pdf
- Analyzing Longitudinal Clinical Trial Data - Ziauddin University Libraries, https://lib.zu.edu.pk/ebookdata/Biostatistics/Analyzing%20Longitudinal%20Clinical%20Trial%20Data_%20A%20Practical%20Guide-by%20Lipkovich,%20Ilya_%20Mallinckrodt,%20Craig%20H.pdf
- Submission of comments on draft Guideline on clinical investigation of medicinal products in the treatment of depression - ISCTM, https://isctm.org/public_access/ISCTM_Comments-EMA_Guideline_on_Depression-Final-240327.pdf
- Adaptive Design and the Estimand Framework - Iris Publishers, https://irispublishers.com/abba/pdf/ABBA.MS.ID.000524.pdf
- Estimands for Randomized Discontinuation Designs in Oncology - arXiv, https://www.arxiv.org/pdf/2506.00556
- Generalizing a causal effect from a trial to a target population: methodological and theoretical contributions, https://benedictecolnet.github.io/pdfs/these.pdf
- Estimand - PMDA, https://www.pmda.go.jp/files/000229014.pdf
- Overview of comments received on the Guideline on clinical investigation of medicinal products in the treatment of diabetes mellitus (CPMP/EWP - EMA, https://www.ema.europa.eu/en/documents/scientific-guideline/overview-comments-received-draft-guideline-clinical-investigation-medicinal-products-treatment-diabetes-mellitus-revision-2_en.pdf
- Estimandで解く臨床試験の科学的疑問【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】, https://statg.com/iryo/esti.html
- Multiple Endpoints in Clinical Trials - Guidance for Industry - FDA, https://www.fda.gov/media/162416/download
- Statistical Analysis of Composite Endpoints in Clinical Trials - Biostatistics and Medical Informatics, https://biostat.wisc.edu/~lmao/research/slides/WR.pdf
- Estimation methods for estimands using the treatment policy ... - arXiv, https://arxiv.org/pdf/2402.12850
- Hypothetical Estimands in Clinical Trials: A Unification of Causal Inference and Missing Data Methods - Taylor & Francis Online, https://www.tandfonline.com/doi/pdf/10.1080/19466315.2022.2081599
- Causal inference and estimands in clinical trials, https://business.purdue.edu/events/causal-machine-learning-for-novel-settings-boot-camp/presentations/lipkovich.pdf
- Statistical Analysis Plan (SAP) - ClinicalTrials.gov, https://cdn.clinicaltrials.gov/large-docs/25/NCT04563325/SAP_001.pdf
- Causal inference and effect estimation using observational data, https://jech.bmj.com/content/jech/early/2022/09/05/jech-2022-219267.full.pdf
- Bayesian causal inference: a critical review - Journals, https://royalsocietypublishing.org/doi/pdf/10.1098/rsta.2022.0153
- Causal Effect Estimands: Interpretation, Identification, and Computation - SAS Support, https://support.sas.com/resources/papers/proceedings20/4322-2020.pdf
- From What Ifs to Insights: Counterfactuals in Causal Inference vs. Explainable AI - arXiv, https://arxiv.org/pdf/2505.13324
- Causal inference in statistics: An overview - UCLA, https://ftp.cs.ucla.edu/pub/stat_ser/r350.pdf
- Causal Estimands for Policy Evaluation and Beyond - OSF, https://osf.io/download/68094424a291869f1735fe95/
- (不)自然実験を用いた因果推論 - 数理社会学会, https://www.jams-sociology.org/wp-content/uploads/JAMS77seminar.pdf
- Measuring Treatment Effects, https://jeffmichler.com/sites/jeffmichler.com/files/3B%20-%20Treatement%20Effects.pdf
- 統計的因果推論 ATEとATTについて|ソルトルック@自己研鑽 - note, https://note.com/holy_cobra5656/n/n6f194c784623
- Treatment Effect Heterogeneity - IZA - Institute of Labor Economics, https://docs.iza.org/dp15151.pdf
- 実務で使える因果推論:傾向スコアからベイズ推論まで徹底解説 - Qiita, https://qiita.com/tarantula426/items/92676f529e25580837f0
- Addressing non-adherence in cluster randomised trials using ..., https://researchonline.lshtm.ac.uk/4657555/1/2020_EPH_PhD_Agbla_S-Copy.pdf
- Estimating Program Effects on Program Participants - HHS Office of Population Affairs, https://opa.hhs.gov/sites/default/files/2020-07/estimating-program-effects-on-program-participants-brief.pdf
- APPENDIX A Low-Cost Randomized Controlled Trial of Safe Families for Children Final Report, http://safe-families.org/wp-content/uploads/2021/06/AppendixA-SFFCFinalReport_Apr_15_2021_updated.pdf
- Causal Effects - McGill eScholarship - McGill University, https://escholarship.mcgill.ca/downloads/1j92g850m.pdf
- How to Document Estimands - MRC Methodology Hub, https://www.methodologyhubs.mrc.ac.uk/index.php/download_file/view/676/354/
- MOST FREQUENTLY ASKED QUESTIONS DURING THE WEBINAR “PIONERING ESTIMANDS IN CLINICAL RESEARCH”, https://psiweb.org/docs/default-source/default-document-library/qa_pionering_estimands_final.pdf?sfvrsn=b83ca4db_0
- Endpoints for Assessing Drug Activity in Clinical Trials - ResearchGate, https://www.researchgate.net/publication/5417496_Endpoints_for_Assessing_Drug_Activity_in_Clinical_Trials
- Are Estimands Necessary for Time-To-Event Endpoints?, https://psiweb.org/docs/default-source/default-document-library/07-chris-harbron-are-estimands-necessary-for-tte.pdf?sfvrsn=0
- Causal inference: critical developments, past and future - arXiv, https://arxiv.org/pdf/2204.02231
- Interpret the estimand framework from a causal inference perspective - arXiv, https://arxiv.org/pdf/2407.00292
- Statistical Analysis Plan - Usher Institute, https://usher.ed.ac.uk/sites/default/files/atoms/files/a2b_statistical_analysis_plan_v3.0_-_signed.pdf
- STATISTICAL ANALYSIS PLAN D8850C00003 - Amazon S3, https://s3.amazonaws.com/ctr-med-7111/D8850C00003/f6878577-9ca6-411b-8de2-e4211cd9ffe0/19cba028-efcb-4f7b-9d02-cf7053704c61/d8850c00003-sap-v-3-1_redacted_19july_1-v6.pdf
- ACTA STInG Statistical Analysis Plan Template - Australian Clinical Trials Alliance, https://clinicaltrialsalliance.org.au/wp-content/uploads/2020/10/SAP-ACTA-STInG-template-V1.0.pdf
- Use of the Estimand Framework to Manage the Disruptive Effects of COVID-19 on Stroke Clinical Trials - American Heart Association Journals, https://www.ahajournals.org/doi/pdf/10.1161/STROKEAHA.121.036537
- Estimands for Single Arm Dose Optimization Trials in Oncology - arXiv, https://arxiv.org/pdf/2501.18930