エビデンス全般 統計学 臨床試験 規制

ICH-E9 臨床試験のための統計的原則 V. データ解析上で考慮すべきこと

V. データ解析上で考慮すべきこと

5.1 解析の事前明記

臨床試験の計画立案の際、データの最終統計解析の主要な特徴は、治験実施計画書の統計の部に記述すべきである。統計の部には、主要変数について行うこととした検証的解析の主要な特徴のすべてと、予想される解析上の問題に対処する方法を含めるべきである。探索的試験の場合には、統計の部の記述をより一般的な原則と方向性にとどめることができる。

統計解析計画書(用語集参照)は治験実施計画書完成後に別の文書として作成することができる。統計解析計画書には、治験実施計画書に述べた解析の主要な特徴について、より技術的で詳細な記述を含めることができる(7.1節参照)。統計解析計画書には、主要変数、副次変数及びその他のデータに関する統計解析を実行するための詳細な手順を記載してもよい。統計解析計画はデータの盲検下レヴュー(7.1節で定義する)の結果に基づいて再検討すべきであり、場合によっては更新し、割付を明らかにする前に完成させるべきである。割付を明らかにした日付だけではなく、統計解析計画書を完成した日付も公式な記録として保持すべきである。

盲検下レヴューから、治験実施計画書に述べた解析の主要な特徴となる事項の変更を提案しようとする場合、変更の内容は治験実施計画書の改訂に記録すべきである。変更が主要事項でない場合は、盲検下レヴューにより示唆された検討事項に基づいて統計解析計画書を更新すれば十分であろう。治験実施計画書(その改訂を含む)に予定された解析の結果のみが検証的であるとみなされる。

総括報告書の統計の部には、一連の臨床試験の過程において方法論に関する決定がいつなされたかも含めて、統計的方法論を明確に記述すべきである(ICH E3 参照)。

5.2 解析対象集団

主要な解析でデータが用いられる被験者の集団は、治験実施計画書の統計の部で定義すべきである。更に、試験の手続きが開始された(例えば、治験導入期の)すべての被験者の記録は有用といってよい。この被験者の記録の内容は、個々の試験の詳細に依存するが、少なくとも人口統計学的なデータ及び疾患の状態に関する基準となる時点のデータは、可能な限り収集すべきである。

ランダム化が行われて臨床試験に参加したすべての被験者が、すべての登録基準を満たし、追跡不能となることもなくすべての試験手順に従い、そしてデータの記録が完全であれば、解析に含める被験者の集団は自明であろう。試験を計画し、実施するに当たっては、この理想に可能な限り近づけることを目ざすべきであるが、実際には、これまでにこの理想が完全に達成されたことがあるかどうかは疑わしい。したがって治験実施計画書の統計の部には、予想される問題について、それらが被験者及び解析されるデータにどのように影響を与えるかについて前もって述べておくべきである。更に治験実施計画書には、十分な解析を損なうと予想される研究実施中の変則的な事例のすべて(様々な種類の治験実施計画書違反、試験治療の中止、欠測値を含む)を最小にするための手続きも明記すべきである。治験実施計画書では、そのような問題の発生する頻度を少なくするための方法と、データ解析中に起こる問題へ対処する方法とを考慮しておくべきである。治験実施計画書違反に対処する解析の方法を修正する必要性があれば、盲検下レヴューの際に確認しておくべきである。すべての重要な治験実施計画書違反は、違反が起きた日時、違反が起きた理由及び試験結果へ与える影響を明らかにすることが望ましい。治験実施計画書違反及び欠測値などの問題の発生頻度とその種類は総括報告書に記録すべきであり、それらが試験結果に対し、どのような影響を与える可能性があるかを記述すべきである(ICH E3 参照)。

解析対象集団の選択に関する判断は、次の二つの原則に従うべきである: 1) 偏りを最小にすること、及び 2) 第一種の過誤の増大を回避すること。

5.2.1 最大の解析対象集団

Intention-to-treatの原則(用語集参照)は、ランダム化が行われた全被験者を主要な解析に含めるべきであると主張するものである。この原則を遵守するには、臨床結果を得るためにランダム化が行われた全被験者を完全に追跡することを必要とするであろう。しかし実際には、後に述べる理由からこの理想を達成することは難しいであろう。本ガイドラインでは「最大の解析対象集団」という用語を用いて、ランダム化が行われた全被験者を含める intention-to-treat という理想に可能な限り完全に近づけた解析対象集団を表すことにする。解析時にも最初のランダム化を維持することは、偏りを防ぎ、統計的検定の強固な基盤を与える点で重要である。多くの臨床試験において、最大の解析対象集団を用いることは保守的な戦略となる。また多くの状況で、最大の解析対象集団により得られる試験治療の効果の推定値は、後の日常診療での効果を反映する可能性がより高いといってよい。

ランダム化が行われた被験者を最大の解析対象集団から除外することになる状況は限られている。それらには、主要な登録基準を満たしていない場合(適格基準違反)、試験治療を一回も受けていない場合、ランダム化後のデータがない場合などがある。そのような除外については常に理由を示すべきである。登録基準を満たしていない被験者は、以下の条件下でのみ偏りを導入する可能性なく除外できるであろう。

  1. 登録基準はランダム化以前に評価されている
  2. 除外の対象となる適格基準違反の発見は完全に客観的になされる
  3. すべての被験者が適格基準違反について同様の綿密さで調べられている(非盲検試験においてはこの保証は困難であり、二重盲検試験であっても割付を明らかにした後では難しい。このことは盲検下レヴューの重要性を強調している。)
  4. 特定の登録基準違反が発見された場合、それに関するすべての違反が除外される

ランダム化が行われた全被験者から試験治療を一度も受けていない被験者を除くことが適切な場合もある。これらの患者を除外しても、例えば試験治療を開始するかどうかの判断が、割付けられた試験治療が何であるかに影響されない場合には、intention-to-treat の原則は保たれるであろう。ランダム化後のデータが全くない被験者をランダム化が行われた全対象集団から除外しなければならない場合もある。これらの個々の除外から生じる可能性のある偏り又はその他の偏りを明示しない限り、どのような解析も完全とはいえない。

最大の解析対象集団を用いる場合、ランダム化後に起こる治験実施計画書違反は、特にそれらの発生が試験治療の割付と関連しているときに、データ及び結論に影響するおそれがある。ほとんどの場合、ランダム化後に違反があった被験者のデータを解析に含めることが適切であり、intention-to-treat の原則とも一致する。試験治療を一度以上受けた後で試験治療を中止し、その後のデータがない被験者及び中止ではないが追跡不能となった被験者の扱いに関連して特別の問題が起きる。なぜなら、これらの被験者を最大の解析対象集団に含めないことにより、この方法が大きく損なわれるおそれがあるからである。どのような理由にせよ被験者が追跡不能となった時点に測定された主要変数の測定値、又は追跡不能となった後に治験実施計画書に従って集められた主要変数の測定値は、この観点から重要である。主要変数を追跡不能となった後に収集することは、死亡又は重大な疾患の発生を主要変数とする研究では特に重要である。このようにしてデータを収集するということは、治験実施計画書に記述すべきである。最終観察値をそれ以降の値に外挿する方法から複雑な数理モデルの使用まで、欠測値を埋め合わせる試みとして様々な技法を用いることができる。最大の解析対象集団の被験者全てについて、主要変数の測定値が利用できることを保証するために用いられる別の方法では、被験者の臨床結果又はより単純化した臨床結果(例えば、成功か失敗か)について何らかの仮定が必要であろう。これらのうちどの戦略を用いる場合でも、治験実施計画書の統計の部にその理由とともに記述し、数理モデルで用いる前提は明確に説明すべきである。対応する解析結果の安定性を示すことも重要であり、用いる戦略自体が試験治療の効果の偏った推定値を与える可能性がある場合には特に重要である。

前もって予見できない問題もあるため、それらの変則的な事例を取り扱う方法に関する詳細な検討は、時期を遅らせて研究終了前に行うデータの盲検下レヴュー時に行った方がよい場合もあろう。そのような場合は、治験実施計画書に述べるべきである。

5.2.2 治験実施計画書に適合した対象集団

ときには「’valid case’(妥当例)」、「’the efficacy’ sample(有効性サンプル)」、又は「’evaluablesubjects’ sample(評価可能被験者サンプル)」と表される「治験実施計画書に適合した」対象集団は、最大の解析対象集団の被験者のうち治験実施計画書をより遵守している一部であり、以下のような基準から特徴づけられる。

(i) 事前に定められた最低限の試験治療規定を完了していること
(ii) 主要変数の測定値が利用可能であること
(iii) 登録基準違反などの重大な治験実施計画書違反がないこと

治験実施計画書に適合した対象集団から被験者を除外する理由の詳細は、個々の試験の状況に合わせた適切な方法により、割付を明らかにする前にすべて明確にし、文書として記録すべきである。

治験実施計画書に適合した対象集団を用いることは、解析において新しい試験治療が有効性を示す可能性を最も大きくするといってもよく、治験実施計画書の基礎となっている科学的なモデルを最もよく反映することになる。しかし、対応する仮説検定と試験治療の効果の推定値は試験により保守的となる場合もならない場合もある。治験実施計画書の遵守状況が試験治療及び臨床結果と関連している場合には、生じる偏りは重大なものとなるおそれがある。

治験実施計画書に適合した対象集団を作り出すために被験者を除外しなければならなくなるような問題及びその他の治験実施計画書違反は、十分に把握し要約すべきである。ここで言う治験実施計画書違反には、試験治療の割付間違い、禁止薬剤の使用、低い服薬遵守状況、追跡不能及び欠測値などがある。試験治療グループ間で、これらの問題の発生頻度及び発生時間のパターンを評価することはよい対処法である。

5.2.3 二つの異なる解析対象集団の役割

一般に、解析に用いる被験者集団の選択の変更を行っても、主要な試験結果が変わらないことを示すことは有益である。検証的試験では、最大の解析対象集団の解析と治験実施計画書に適合した対象集団の解析との相違を明示的な議論と解釈の対象にできるよう、通常両方の解析を計画することが適切である。解析対象集団の変更により結論がどの程度変わり易いかを、更に探索する計画を立てた方が望ましい場合もあろう。最大の解析対象集団の解析と治験実施計画書に適合した対象集団の解析が本質的に同じ結論に達する場合、試験結果の信用度は高くなる。しかしその場合でも、最大の解析対象集団の相当の割合を治験実施計画書に適合した解析で除かなければならない場合には、試験全体の妥当性が疑われることに注意する必要がある。

最大の解析対象集団と治験実施計画書に適合した対象集団は、(被験薬が優っていることを示そうとする)優越性試験と(被験薬が匹敵しうることを示そうとする、3.3.2節参照)同等性試験又は非劣性試験とで異なる役割を果たす。優越性試験では、最大の解析対象集団から得られる有効性の推定値は、治験実施計画書に適合した解析ほど過度に楽観的ではないため、最大の解析対象集団が(例外的な状況を除いて)主要な解析に用いられる。なぜならば、最大の解析対象集団に含まれる遵守状況の悪い被験者は、推定される試験治療の効果を一般に小さくするからである。しかし、同等性試験又は非劣性試験では、最大の解析対象集団を使用することは一般に保守的ではないため、その役割は十分慎重に考慮すべきである。

5.3 欠測値と外れ値

欠測値は、臨床試験において偏りを起こし得る代表的な原因である。したがって、データ収集及びデータマネジメントに関しては、治験実施計画書が要求する事項について、すべてを満たすようあらゆる努力をすべきである。しかし、実際には、ほとんど常に欠測値がいくつか存在するであろう。そうであったとしても、欠測値を扱う方法が適切で、特にそれらの方法が治験実施計画書の解析計画中に事前に定められている場合には、試験は妥当であるとみなすことができる。この観点から盲検下レヴューの間に統計解析計画書を見直すことにより、欠測値を扱う方法が洗練されるであろう。残念ながら、欠測値に対処する方法で、普遍的に適用可能と薦められる方法はない。欠測値に対処する方法により解析結果がどの程度変わり易いかを、欠測の数が多い場合には特に、検討すべきである。

同様の手法は、外れ値(その統計的定義はある程度恣意的だが)の影響を探索するためにも用いるべきである。特定の値が外れ値であると明確に判断するのに最も説得力があるのは、統計的に正当であるだけではなく医学的にも正当な場合であり、医学的な背景によりしばしば適切な対応が決定される例がみられる。治験実施計画書又は統計解析計画書に記載する外れ値対策は、どのような場合でも先験的にどの試験治療グループの利益にもならないようにすべきである。この観点から、盲検下レヴュー中に再度解析を見直すことが有益である。治験実施計画書中に外れ値に対処する方法が記載されていない場合、実際の値を用いた解析のほかに、外れ値の影響を除くか小さくする別の解析を少なくとも一つ行うべきであり、それらの結果の間の差異を議論すべきである。

5.4 データ変換

重要な変数を変換するために必要な判断は解析の前に行い、先行する臨床試験での類似データに基づいて治験実施計画立案時に行うのが最善である。変換(例えば、平方根、対数)を行うことは、主要変数については特に治験実施計画書に明記すべきであり、その理論的根拠を述べるべきである。統計手法の前提を満たすことを保証するための変換の一般的な原則は、標準的な教科書に書かれている。また、特定の変数についての変換の慣例的方法は、多くの臨床領域別に開発されてきている。変数を変換するかどうか、変換するのであればどのように変換するかという判断は、臨床的な解釈を容易にする尺度を選択するという観点も含めて行われるべきである。

同様な配慮は、基準となる時点での値からの変化、基準となる時点での値からの変化割合、繰り返し測定の「曲線下面積」、又は二つの異なる変数の比、といった新たな変数の導出の際にも行うべきである。新たな変数の臨床的解釈は注意深く検討されるべきであり、その正当性も治験実施計画書に述べるべきである。密接に関連した話題が2.2.2節に述べられている。

5.5 推定、信頼区間及び仮説検定

治験実施計画書の統計の部には、試験の主要な目的に対応した検定すべき仮説及び推定すべき試験治療の効果のどちらか又は両方を明記すべきである。主要変数については(望むべくは副次変数についても)、これらの目的を果たすための作業に用いる統計手法を記述すべきであり、基礎となる統計モデルを明確にすべきである。試験治療の効果の推定値は可能な限り信頼区間とともに提示すべきものであることから、治験実施計画書の統計の部にはこれらを求める方法を示すべきである。例えば共分散分析を用いて、精度の向上のため又は存在する可能性のある基準となる時点での差について推定値を調整するために、基準となる時点での値を使用するいかなる目的に関しても説明を加えるべきである。

片側検定を用いるか両側検定を用いるかを明確にすることは重要であり、特に片側検定の使用については前もって理由づけることが重要である。仮説検定が適切ではないと考えられる場合には、統計的結論を導くための別な手続きを提示すべきである。推測を片側と考えるか両側と考えるかには議論があり、統計学の文献にも様々な見解がみられる。承認申請のための試験では、片側検定の第一種の過誤を両側検定で慣例的に用いている値の半分に設定する方法が好ましい。このように設定することにより、試験治療間の差の大きさを推定するために通常用いられる両側信頼区間との整合性を図ることができる。

選択する個別の統計モデルには、試験の計画段階での統計的な配慮を反映させると同時に、解析する変数に関する現在の医学的及び統計的知識を反映させるべきである。(例えば、分散分析モデルで)解析に含める効果のすべてを十分に明記すべきであり、予備的な結果からこの効果の組を変更する可能性があるのであれば、そのやり方を説明すべきである。共分散分析に用いる共変量の組に関しても同様の考慮が当てはまる(5.7節も参照のこと)。

統計的方法を選択する際には、主要変数及び副次変数両方の統計的分布に対して十分な注意を払うべきである。(例えばパラメトリック手法を用いるかノンパラメトリック手法を用いるかの)選択の際には、試験治療効果の大きさに関する統計的推定値を、(有意性検定に加えて)信頼区間とともに示すことが必要だと心得ておくことが重要である。

主要変数の主要な解析は、その裏付けとして行う主要変数又は副次変数の解析とは明確に区別すべきである。治験実施計画書の統計の部又は統計解析計画書には、主要変数及び副次変数以外のデータをどのように要約し報告するかについての概要も記述すべきである。その際、一連の試験にまたがる解析、例えば安全性データの解析を一貫させるためにとったすべての手段についても言及すべきである。

既知の薬理パラメータ、個々の被験者の治験実施計画書遵守の程度又はそのほかの生物学的な根拠に基づくデータをモデル化する方法により、真の有効性又は潜在的な有効性について、とりわけ試験治療の効果の推定の点から、有益な理解が得られるであろう。そのようなモデルの前提条件は常に明確にしておくべきであり、モデルから得られる結論の限界についても慎重に記述すべきである。

5.6 有意水準と信頼水準の調整

多重性が存在する場合、臨床試験データの解析に対する通常の頻度論的立場からは、第一種の過誤の調整を必要とするであろう。多重性は、例えば主要変数が複数ある場合(2.2.2節参照)、試験治療間の多重比較、時間に伴う繰り返し評価、中間解析(4.5節参照)から生じるであろう。多重性を回避する又は減じる方法は、それが利用できる場合には好ましいこともある。例えば、変数が複数ある場合に主要な変数の中でも重要な変数を指定すること、多群比較の場合に試験治療間の重要な対比を選択すること、繰り返し測定の場合に「曲線下面積」といった要約指標を使用すること、などである。検証的解析では、このようにして多重性を減じた後の段階でまだ残っている多重性のすべての側面について治験実施計画書において明らかにすべきである。調整は常に考慮すべきであり、調整方法の詳細、又はなぜ調整は必要ないと考えるのかという説明は、統計解析計画書に述べるべきである。

5.7 部分集団、交互作用及び共変量

主要変数が試験治療によるものとは別の作用と、系統的に関連している例がよくみられる。例えば、年齢や性といった共変量と関連がある場合、又は多施設共同治験では異なる施設で試験治療を受けた被験者という部分集団間に差がみられる場合がある。共変量の影響又は部分集団の効果を調整することは予定した解析の重要部分となる場合があり、したがって治験実施計画書に記述すべきである。主要変数に重要な影響を及ぼすと予想される共変量と要因は、試験開始前に議論して確認しておくべきであり、精度を向上させ、試験治療グループ間のバランスの欠如を埋め合わせるため、それらを解析でどう取り扱うかを考慮すべきである。計画時に一つ以上の因子を層別因子として用いたならば、それらの因子を解析時に考慮することが適切である。調整することの潜在的な有益さが疑わしい場合にはしばしば、調整しない解析に主要な関心を払うと宣言し、調整した解析はそれを補うものとすることが薦められる。施設の効果及び基準となる時点での主要変数の測定値の役割には特別な注意を払うべきである。しかし、ランダム化後に測定された共変量を主要な解析で調整することは薦められない。なぜならばそのような共変量は試験治療の影響を受けている可能性があるからである。

試験治療の効果自身もまた部分集団や共変量により異なる可能性がある。例えば、効果は年齢とともに減少する場合があり、被験者の特別な診断分類では、より大きな効果があることもある。そのような交互作用は予想されたり、交互作用自体に重要な関心がある場合(例えば高齢者医療など)があり、したがって部分集団別解析又は交互作用を含んだ統計モデルは予定した検証的解析に含まれる場合がある。しかし、多くの場合、部分集団別解析又は交互作用解析は探索的であるため、探索的であることを明確に確認しておくべきである。それらの解析では、全体でみられた試験治療の効果がすべて一様であるかどうかを探索すべきである。一般に、そのような解析は、まず問題となっている統計モデルに交互作用項を加えることから始めるべきであり、適切な被験者の部分集団内、又は共変量によって定められる層内を更に探索的に解析することによって補われる。探索的解析である場合、これらの解析結果は慎重に解釈すべきである。試験治療の有効性(若しくは有効性がないこと)、又は安全性に関する結論は、どのようなものであっても、探索的な部分集団別解析のみに基づいていては受け入れ難い。

5.8 データの完全性の維持とコンピュータソフトウェアの妥当性

数値で表された解析結果の信憑性は、データマネジメント(データ入力、保存、確認、訂正及び復元)及びデータの統計処理の両方に用いられる方法とソフトウェア(自作、外注、市販)の質及び妥当性に依存するものである。したがって、データマネジメントは綿密で効果的な標準業務手順書に基づいて行うべきである。データマネジメント及び統計解析に用いるコンピュータソフトウェアは信頼できるものを使用すべきであり、ソフトウエアの適切な検証手順を資料として用意すべきである。

参照

「臨床試験のための統計的原則」について

https://www.pmda.go.jp/files/000156112.pdf

-エビデンス全般, 統計学, 臨床試験, 規制

© 2021 Real-World Data/Evidence website