ICH E9「臨床試験のための統計的原則」もっと分かりやすく解説！

新薬の開発に欠かせない「臨床試験」。その試験結果の信頼性を高め、世界中で通用するルールをまとめたのがICH E9「臨床試験のための統計的原則」というガイドラインです。しかし、専門的な内容も多く、少し難解に感じる方もいらっしゃるかもしれません。

このページでは、ICH E9に関するよくあるご質問とその回答を、より分かりやすい言葉で、情報を加えて解説します。臨床試験に携わる方だけでなく、新薬開発のプロセスに興味のある方にも、統計的な考え方のエッセンスが伝わるように、丁寧にご説明します。

Table of Contents

Q1. 「試験統計家」って、どんな人がなれるの？具体的な条件は？

A1. 高度な専門知識と実務経験を併せ持つ、臨床試験の統計部門の責任者です。

現在のガイドラインでは、「この資格を持っていればOK！」というような具体的な資格や免許が定められているわけではありません。しかし、誰でもなれるわけではなく、非常に高度な専門性が求められます。

求められるのは、こんな人！

統計学のプロフェッショナルであること: 大学などで生物統計学や医学統計学といった専門分野を深く学び、しっかりとした理論的知識を持っていることが大前提です。
臨床試験の実務経験が豊富であること: 実際に臨床試験の計画段階からデータの解析、結果の評価、報告書の作成まで、統計的な側面から深く関わった経験が重要になります。どのような立場で、どれくらいの期間、どのような種類の試験に関わってきたか、といった具体的な経験が問われます。
責任感を持って業務を遂行できること: 試験統計家は、臨床試験の統計に関する全てのことに責任を持ちます。データの品質や解析結果の信頼性を担保し、科学的に妥当な結論を導くための重責を担います。

治験依頼者（製薬企業など）が選ぶ際のポイント

治験依頼者は、これらの要素を総合的に判断して、個々の臨床試験に最もふさわしい試験統計家を選びます。具体的には、以下のような情報を基に判断することになります。

学歴: どのような教育機関で、何を学んだのか。
職務経歴・研修歴: 卒業後、どのような研修や訓練を受け、どのような業務経験を積んできたのか。
研究業績: 学会発表や論文発表などの実績。
臨床試験への関与実績: 過去にどのような臨床試験に、どの程度の深さで関わってきたのか。

審査の際には、その専門性が確認されます

「治験の総括報告書の構成と内容に関するガイドライン」では、試験に関わった人々のリストやその履歴に関する文書を作成することが求められています。医薬品の承認審査の際には、これらの資料を通して、どのような専門性を持つ人が試験統計家として選ばれたのかが確認されることがあります。つまり、試験統計家はその能力を客観的に示せる必要があるのです。

Q2. 「効き目がある」ってどう判断するの？優越性試験と非劣性試験、それぞれの検定方法と有意水準について教えて！

A2. 薬の有効性を科学的に示すため、明確な統計的ルールに基づいて判断します。原則として「95%両側信頼区間」と「有意水準5%（両側）または2.5%（片側）」を用います。

新しい薬が本当に効果があるのか、あるいは既存の薬と比べてどうなのかを判断するためには、統計学的な手法を用いた客観的な評価が不可欠です。その際に重要なのが、「検定の方法（片側か両側か）」と「有意水準（どこまでを偶然ではないと判断するかの基準）」です。

まず、基本の考え方をおさえよう！

優越性試験とは？

新しい薬が、プラセボ（偽薬）や既存の標準的な薬よりも「優れている」ことを示すための試験です。

非劣性試験とは？

新しい薬が、既存の標準的な薬と比べて「劣っていない（同等かそれ以上である）」ことを示すための試験です。既存薬と同等の有効性があり、かつ副作用が少ない、服用しやすいなどのメリットがある場合に用いられます。

信頼区間とは？

試験で得られた結果（例えば、薬の効果の大きさ）が、真の値（本当に知りたい値）からどの程度ずれうるかの範囲を示したものです。「95%信頼区間」とは、同じ試験を100回繰り返した場合、そのうち95回はこの区間内に真の値が含まれると期待される範囲、とイメージしてください。区間が狭いほど、結果の精度が高いと言えます。

有意水準とは？

偶然によって得られた差ではない、つまり「統計的に意味のある差（有意差）」と判断するための基準値です。例えば有意水準5%とは、「実際には差がないのに、偶然差があると判断してしまう確率（第一種の過誤とも言います）が5%以下である」という意味です。

ガイドラインが示す原則

以前は、検定方法や有意水準の考え方には様々な議論がありましたが、規制当局の立場からは、判断基準が曖昧だと困ってしまいます。また、単に「差があるかないか」だけでなく、「効果の大きさがどれくらいか」を推定することも非常に重要です。

そこで、現在では検証的試験（薬の有効性を最終的に検証する試験）においては、以下のルールを原則としています。

効果の推定:

優越性試験でも非劣性試験でも、薬の効果の大きさを推定する際には「95%信頼係数の両側信頼区間」を用います。これは、効果が良い方向だけでなく悪い方向へのブレも考慮した、より客観的な評価方法です。

仮説検定の有意水準:

上記の信頼区間による判断との整合性を取るため、優越性試験でも非劣性試験でも、原則として「片側検定なら2.5%」、「両側検定なら5%」とします。

両側検定（5%）: 新しい薬が既存薬より「良いか悪いか（どちらの方向にも差があるか）」を検証する場合。
片側検定（2.5%）: 新しい薬が既存薬より「良い（特定の方向にのみ差があるか）」、または「劣っていない」ことを検証する場合。非劣性試験ではこちらが用いられることが多いです。両側5%の片方の裾だけを見るイメージなので2.5%となります。

用量反応試験（薬の量と効果の関係を調べる試験）で、有効性を検証する場合も同様の考え方です。

例外もあるの？

はい、以下のような場合には、この原則から外れた有意水準を設定することも認められています。ただし、その理由をきちんと説明できることが条件です。

より厳しくする場合: より確実な有効性の証拠を示したい場合など。
より緩くする場合: 希少疾病（患者さんの数が極めて少ない病気）の薬のように、十分な数の患者さんを集めることが非常に難しい場合など。

生物学的同等性試験との違いは？

ジェネリック医薬品が先発医薬品と生物学的に同等であるか（体内で同じように吸収され、同じように作用するか）を調べる「生物学的同等性試験」では、「90%信頼係数の両側信頼区間」が用いられます（これは別のガイドラインで定められています）。

しかし、臨床効果（実際の病気の改善効果）を指標にして標準的な薬との同等性を検証する「臨床的同等性試験」の場合は、上記で説明した原則通り、「95%信頼係数の両側信頼区間」を用いることになります。

Q3. 薬の承認を得るには、検証的な臨床試験はいくつ必要？ 1つだけじゃダメなの？

A3. 1つの試験で十分な場合もありますが、多くは複数の試験結果が求められます。大切なのは「十分な証拠」と「広い範囲の患者さんへの一般化」です。

新薬の承認を申請する際には、その薬が有効で安全であることを科学的に証明する「検証的試験」の結果が不可欠です。この検証的試験がいくつ必要か、というのは状況によって異なります。

基本的な考え方

「十分な証拠」を示すこと:

まず何よりも、薬の有効性と安全性について、承認するに足るだけのしっかりとした証拠を提示する必要があります。

「一般化」の根拠を説明できること:

臨床試験は限られた患者さん、限られた施設で行われます。その結果が、実際に薬が使われるであろう様々な状況や、より広い範囲の患者さん（意図している患者集団）にどれだけ当てはまるのか（一般化できるのか）を説明できることが重要です。

検証的試験が1つで十分なケースとは？

ガイドラインには「一つの検証的試験からの証拠だけで十分であることもあり得る」と書かれています。これは、例えば以下のような場合が考えられます。

その1つの試験結果が、非常に明確で、統計的にも臨床的にも疑いのないほど強い有効性を示している場合。
他の臨床試験（探索的試験など）や非臨床試験（動物実験など）の結果から、その有効性を裏付ける強い根拠が得られている場合。

なぜ複数の試験が求められることが多いの？

結果の再現性を確認するため:

1つの試験結果が偶然によるものでないことを確認し、異なる条件下でも同様の結果が得られるかを見るために、複数の試験を行うことが一般的です。

異なる患者集団での有効性を確認するため:

例えば、年齢層、性別、病気の進行度などが異なる患者さんに対しても有効かを確認するために、複数の試験が必要になることがあります。

一般化の根拠を強固にするため:

複数の試験で一貫した結果が得られれば、より広い範囲の患者さんへの一般化がしやすくなります。

特に注意が必要なケース

もし、たった1つの検証的試験の結果だけで、非常に広範囲の患者さんへの使用を目的として承認申請を行う場合には、その「一般化の根拠」を特にしっかりと説明する必要があります。例えば、ごく少数の施設で、非常に限定された条件の下で行われた試験結果だけでは、多くの異なる状況の患者さんに適用できるとは言えません。なぜその結果が一般化できるのか、説得力のある説明が求められます。

Q4. たくさんの病院で臨床試験をするとき、1つの病院あたり何人くらいの患者さんにお願いすればいいの？

A4. 施設の偏りを考慮し、信頼性の高い結果を得るために、1施設あたりの患者さんは多めに、かつ施設間で偏りがないようにするのが基本です。目安としては「1グループにつき10人以上」ですが、状況によります。

多くの医療機関（施設）が協力して行う臨床試験を「多施設共同治験」と呼びます。これにより、より多くの患者さんのデータを集められ、結果の一般化可能性も高まります。

なぜ施設あたりの患者さんの数が重要？

ガイドラインでは、主に「固定効果モデル」という統計モデルを前提に議論されています。これは、各施設に共通する治療効果があり、施設ごとの特性（施設効果）や、治療と施設の組み合わせによる特有の効果（交互作用）を考慮するという考え方です。

「施設効果」とは？

病院の設備、スタッフの経験、地域性など、施設ごとの違いが試験結果に影響を与える可能性のことです。

「試験治療と施設の交互作用」とは？

ある薬がA病院ではとてもよく効くのに、B病院ではあまり効かない、といったように、薬の効果が施設によって異なる可能性のことです。

これらの影響をきちんと評価し、もし結果に「不均一性」（施設によって結果が大きく異なること）が見られた場合には、その原因を試験の運営方法や患者さんの特徴などから十分に調べる必要があります。

そのため、以下の点が重要になります。

施設あたりの患者さんを多くする:

各施設である程度の数の患者さんがいれば、その施設の結果の信頼性が高まり、施設ごとの特徴や交互作用をより正確に推定しやすくなります。

施設間で患者さんの数に大きな差が出ないようにする:

特定の施設だけに極端に多くの患者さんが集まると、その施設の結果が全体の結論に大きな影響を与えてしまう可能性があります。そのため、施設を選ぶ際には、各施設からバランス良く患者さんに参加してもらえるように配慮することが大切です。

具体的な人数は？

対象となる病気の種類や試験する薬の特性によって異なりますが、「1つの治療グループ（例：新しい薬を投与するグループ、プラセボを投与するグループなど）につき、1施設あたり10人以上」が一つの目安とされています。

施設あたりの患者さんが少なくなる場合は？

やむを得ず施設あたりの患者さんが少なくなる場合でも、施設間で患者数に大きな差が出ないように配慮することは同様に重要です。

ただし、施設あたりの患者さんが少ないと、以下のような問題が指摘されています。

治験の質を保つのが難しくなる。
盲検性（誰がどの薬を使っているか分からないようにすること）を確保しにくくなる。
解析の結果、施設間で結果のばらつき（不均一性）が見られても、その原因を施設の運営管理や患者さんの特徴と結びつけて説明するのが難しくなる。

このような場合、統計モデルとして「混合モデル」を用いることが適切になることもありますが、解析の解釈には注意が必要です。

大切なのは「一般化」

最終的にこれらの検討結果を、実際の医療現場で薬がどのように使われるかという「一般化」の議論に結びつけるためには、どのような施設を選んで試験を行うかが非常に重要になります。

「施設」の定義について

ちなみに、ガイドラインでいう「施設」とは、必ずしも1つの医療機関だけを指すわけではありません。例えば、複数の医療機関であっても、試験を実施する観点から見て1つのグループとして扱える合理的な理由があれば、それらをまとめて1つの「施設」として取り扱うことも可能です。

Q5. 昔は第Ⅲ相試験では2つのグループを比べるのが普通だったけど、今は3つ以上のグループで比べる試験が推奨されているの？

A5. 2群比較だけを推奨するというわけではありません。試験の目的に応じて、3群以上の比較試験も有効な選択肢として検討することが重要です。

臨床試験の最終段階である「第Ⅲ相試験」は、薬の有効性と安全性を最終的に確認し、承認申請のための主要なデータを得るための試験です。

これまでの考え方

以前のガイドライン（平成4年通知の旧ガイドライン）では、第Ⅲ相試験において2つのグループを比較する試験（例えば、新しい薬のグループ vs プラセボのグループ、あるいは新しい薬のグループ vs 標準的な既存薬のグループ）が主に推奨されていました。

現在の考え方：より柔軟なアプローチへ

現在のICH E9ガイドラインでは、この方針が変更され、必ずしも2群比較に限定されるわけではありません。3.3.2項に記載されているように、試験の目的や状況によっては、3つ以上のグループで比較する試験を行うことで、より重要な情報が得られる場合があります。

例えば、実薬（効果のある既存薬）を対照として行われる同等性試験や非劣性試験（Q2参照）において、プラセボ（偽薬）のグループを加えた3群（新しい薬、実薬対照薬、プラセボ）で比較する試験を行うと、以下のようなメリットがあります。

試験の妥当性の確認 (Assay Sensitivity):

プラセボ群と比較して実薬対照群が優れていることが示されれば、その試験系がそもそも薬の効果をきちんと検出できる感度を持っていたことが確認できます。これにより、新しい薬と実薬対照薬の比較結果の信頼性が高まります。

効果の大きさの評価:

新しい薬がプラセボに対してどれくらいの効果があるのか、実薬対照薬がプラセボに対してどれくらいの効果があるのかを同時に評価できます。

大切なのは「十分な検討」

同等性試験や非劣性試験に限らず、臨床試験の計画を立てる際には、どのような比較方法（比較の型式）が最も適切なのかを十分に検討することが重要です。2群比較が適切な場合もあれば、3群以上の比較がより多くの情報をもたらす場合もあります。試験の目的、対象疾患、評価項目などを総合的に考慮して、最適な試験計画を決定すべきです。

対照群の選択については、さらに詳しい情報も

臨床試験における対照群（比較対象となるグループ）をどのように選ぶかという問題は非常に重要で、ICHでは別途専門家委員会（E10：臨床試験における対照群の選択）が設けられ、より詳細な検討が行われています。そちらのガイドラインも参照すると、より理解が深まるでしょう。

Q6. 同等性試験や非劣性試験で使う「同等限界（非劣性マージン）」って、どうやって決めればいいの？

A6. 臨床的に見て「これくらいの違いなら許容できる」という範囲を、科学的根拠に基づいて専門家が設定します。申請者はその妥当性を説明できなければなりません。

同等性試験（新しい薬が既存薬と効果が同等であることを示す試験）や非劣性試験（新しい薬が既存薬より劣っていないことを示す試験）では、「どこまでの差なら『同等』あるいは『劣っていない』と見なせるか」という許容範囲をあらかじめ設定する必要があります。この許容範囲のことを「同等限界」（非劣性試験の場合は特に「非劣性マージン」とも呼ばれます）と言います。

誰が、どうやって決めるの？

この「同等限界」は、統計的な都合だけで決めるものではありません。以下の要素を総合的に考慮し、臨床的な観点から見て意味のある範囲で設定する必要があります。

疾患の領域: 対象となる病気の種類や重症度。例えば、命に関わる病気であれば、許容される効果の差はより小さくなるでしょう。
薬剤の性質: 薬の種類や作用機序、期待される効果の大きさ。
評価変数: 何を指標にして効果を測るか（例：血圧の低下量、症状の改善率、生存期間など）。それが数値データ（計量値）か、分類データ（計数値）かによっても考慮が必要です。

理想的には、それぞれの疾患領域や薬の種類ごとに、専門家の間で合意が得られた「同等限界」を用いることが望ましいです。多くの専門家が議論し、科学的根拠に基づいて「この範囲内であれば臨床的に問題ない」と認められた基準であれば、その妥当性が高まります。

専門家の合意がない場合は？

そのような共通の基準がない場合には、薬の開発を行う申請者（製薬企業など）が、個々の臨床試験において臨床的に適切と考えられる値を設定することになります。

しかし、その場合、承認申請の際には、なぜその値を「同等限界」として設定したのか、その妥当性の根拠を明確に示し、きちんと説明できることが非常に重要です。

実薬対照の非劣性試験における注意点

既存の有効な薬（実薬）を対照として非劣性試験を行う場合には、設定する「非劣性マージン」は、少なくともその実薬対照がプラセボ（偽薬）に対して明確な効果を示すであろう差（プラセボに対する実薬対照の期待される効果の一部）よりも小さく設定する必要があります。

つまり、新しい薬が「実薬対照に劣っていない」というためには、その許容範囲が、実薬対照がそもそも有効であると期待される範囲（プラセボとの差）を大きく損なわないようにしなければなりません。そうでなければ、「プラセボよりはましだが、実薬対照よりはかなり劣る」という結果でも非劣性が示せてしまう可能性があるためです。

この「同等限界」の設定は、試験の結論を左右する非常に重要な要素であり、慎重な検討と明確な根拠が求められます。

Q7. 薬の効果を見るとき、なぜ最初に「施設と薬の交互作用」を考慮しないモデルを使うの？交互作用は無視していいの？

A7. まず薬全体の「主効果」があるかを確認するためです。交互作用を無視するわけではなく、むしろ交互作用があってもそれを上回る効果があるかを見ています。その後、交互作用の有無もきちんと調べます。

臨床試験の結果を分析する際、特に多施設共同治験では、薬そのものの効果（主効果）だけでなく、施設による影響や、薬の効果が施設によって異なる可能性（施設と薬の交互作用）も考慮に入れる必要があります。

ガイドラインの考え方

ICH E9ガイドラインの3.2項では、「試験治療の主効果は、最初に施設と試験治療の交互作用を含まず施設間差を考慮に入れるモデルを用いて調べることができる」と書かれています。これは、一見すると「交互作用を最初から無視しているのでは？」と疑問に思うかもしれません。

しかし、ここでの意図は「まず、薬が全体として効果を持っているのか（主効果があるのか）を主要な関心事として評価する」という立場に基づいています。そのために、

施設間のばらつき（施設間差）は統計モデルに組み込んで調整します。これにより、施設ごとのベースラインの違いなどの影響を除外して、治療効果をより正確に評価しようとします。

その上で、最初は「施設と薬の交互作用」の項をモデルに含めずに、薬の主効果を検証します。

交互作用を無視しているわけではない！

このアプローチは、交互作用の存在を完全に否定したり、無視したりするという意味ではありません。むしろ、この初期モデルで薬の主効果が統計的に有意であると判断されるためには、仮に施設と薬の間に何らかの交互作用（つまり、施設によって薬の効果に違いがある状態）が存在していたとしても、その影響を乗り越えて、全体として明確な治療効果が示される必要がある、という厳しい見方をしているのです。

その後のステップが重要

主効果が確認された場合:

次に、「施設と薬の交互作用」が実際に存在するかどうかを調べます。もし交互作用が認められた場合（特に、ある施設では有効だが別の施設では効果がない、あるいは逆効果といった「質的な交互作用」が見られた場合）は、なぜそのような違いが生じたのか、その理由を慎重に考察し、結果の安定性を確認する必要があります。理由が十分に説明できない場合は、結果の解釈が難しくなり、場合によっては追加の試験が必要になることもあります。

主効果が認められない場合:

この場合、たとえその後の交互作用の検討で、「特定の施設や特定の条件下では薬が有効かもしれない」という結果が示唆されたとしても、それはあくまで探索的な発見に過ぎません。その結果に基づいて薬の有効性を主張するためには、改めてその特定の条件を考慮した新しい検証的試験を計画し、実施する必要があります。最初の試験計画で意図していなかったサブグループ解析の結果だけをもって有効性を結論づけることはできません。

このように、段階的に解析を進めることで、薬の効果をより客観的かつ慎重に評価しようとしています。

Q8. 解析する患者さんのグループって2種類あるけど、どっちをメインに使えばいいの？

A8. 原則は「最大の解析対象集団（FAS）」をメインとしますが、試験の種類によっては「治験実施計画書に適合した対象集団（PPS）」の役割も重要です。どちらを使うかは慎重に判断しましょう。

臨床試験のデータを解析する際、どの患者さんのデータを解析に含めるかによって、結果の解釈が変わってくることがあります。ICH E9ガイドラインでは、主に以下の2つの解析対象集団を定義しています。

最大の解析対象集団 (FAS: Full Analysis Set)

これは、無作為割付（ランダムに治療法を割り当てること）が行われた全ての患者さんを、可能な限り含めて解析する集団です。基本的には、一度でも治験薬の投与を受けた患者さんは全て解析対象となります。

途中で治療を中止した患者さんや、治験実施計画書から多少逸脱してしまった患者さんも原則として含めます。

この考え方は「Intention-to-Treat (ITT) の原則」（治療意図に基づく解析）に近く、実際に薬が処方された場合に起こりうる状況を反映しやすく、実臨床に近い状況での薬の効果を評価するのに適しているとされています。結果に対する偏りを最小限に抑える効果も期待されます。

治験実施計画書に適合した対象集団 (PPS: Per Protocol Set)

これは、治験実施計画書に規定された治療をきちんと受け、計画書からの大きな逸脱がなく、主要な評価項目がきちんと測定できた患者さんだけを選んで解析する集団です。

薬の純粋な効果（理想的な条件下での効果）を評価するのに適していると考えられます。

ただし、計画書通りに進まなかった患者さん（例えば、副作用で薬を続けられなかった人など）が除外されるため、結果が実臨床よりも楽観的になる（薬の効果が良く見えすぎる）可能性があります。

どちらを主とするか？

ガイドラインでは、基本的には「最大の解析対象集団（FAS）」を主要な解析対象集団とすることを推奨しています。これは、ITTの原則に基づき、結果の偏りを少なくし、より現実的な評価をするためです。

ただし、注意が必要なケースも！

同等性試験や非劣性試験の場合

これらの試験では、FASを用いることが必ずしも「保守的（つまり、同等性や非劣性を示しにくい、より厳しい評価）」であるとは限りません。例えば、効果のない患者さんが多く含まれると、差が出にくくなり、かえって同等性や非劣性が示されやすくなる可能性があります。このような場合は、PPSでの解析結果も非常に重要となり、どちらの結果を重視するかは慎重に考慮する必要があります。両方の集団で同様の結果が得られることが望ましいです。

2つの集団の結果が大きく異なる場合は？

FASとPPSの解析結果が大きく異なる場合、それは以下のような問題を示唆している可能性があります。

治験実施計画書が十分に遵守されていなかった（脱落者が多い、計画書からの逸脱が多いなど）。
治験実施計画書そのものに不備があった。

どちらの場合も、試験の信頼性を損なう可能性があります。そのため、試験を計画・実施する際には、できるだけFASとPPSが一致するように（つまり、多くの患者さんが計画書通りに試験を完了できるように）努力すべきです。そのためには、全ての患者さんをできる限り最後まで追跡調査することも重要です。

もし、何らかの理由でFASとPPSの間に大きな乖離が生じてしまった場合には、

なぜ乖離が生じたのか、その原因を明らかにする。
その原因が結果に偏りをもたらす可能性がないか吟味する。
さらに、2つの集団で解析結果がどのように異なるのかを詳細に比較検討する。

といった対応が必要です。これにより、試験結果の信頼性や妥当性を総合的に評価することができます。

Q9. 患者さんのデータを解析にどう使うか、いつまでに決めておくべき？後から変更してもいいの？

A9. 原則として、試験を始める前に「治験実施計画書」で明確に決めておくべきです。やむを得ず後から検討する場合は、結果に影響が出ないよう「盲検下」で行います。

臨床試験で得られた患者さんのデータを、最終的にどのように解析に用いるか（例えば、どの患者さんを解析に含めるか、欠測データが生じた場合にどう扱うかなど）というルールは、試験の信頼性を保つ上で非常に重要です。

基本的なルール：事前に決定！

治験実施計画書に明記

患者さんの解析上の取り扱いは、原則として、臨床試験を開始する前に作成する「治験実施計画書」の中に、あらかじめ具体的かつ明確に記載しておくべきです。これにより、試験結果を見てから都合の良いように解析方法を変える、といった恣意的な操作を防ぎます。

例外的なケース：盲検下での検討

しかし、現実には、計画書を作成する段階では全ての事態を予測できず、取り扱いを定められない事項が出てきたり、試験を実施している途中で得られた情報（ただし、個々の患者さんがどの治療を受けているかは分からない情報）に基づいて、取り扱いを見直さなければならない状況が生じたりすることもあります。

このような場合には、以下のルールに従って対応します。

盲検下（ブラインド状態）で検討

誰がどの治療（新しい薬か、対照薬か、プラセボかなど）を受けているかという情報が分からない状態（これを「盲検下」または「ブラインド状態」と言います）で、解析上の取り扱いを検討し、決定します。これは、試験結果の方向性を知った上で判断が歪められることを防ぐためです。

記録を残す

どのような検討を経てその取り扱いを決定したのか、その経緯をきちんと記録しておくことも重要です。

注意すべきこと：安易な基準変更はNG！

従来、症例検討（個々の患者さんのデータを見直す作業）の際に、事前に定めた基準を後から緩めてしまうようなことが慣例的に行われていたケースもあったかもしれませんが、これは望ましくありません。

試験開始後に、解析上の取り扱いに関する変更事項や新たに追加で定める事項が多いということは、試験計画の不備や実施上の問題を示唆し、試験全体の妥当性や信頼性を大きく損なう可能性があることに注意が必要です。

非盲検比較試験（オープンラベル試験）の場合でも

非盲検比較試験（どの患者さんがどの薬を使用しているか、医師や患者さんにも分かっている状態で行う試験）であっても、可能な限り客観性を保つ努力が求められます。

情報アクセス制限: 患者さんへの安全上の配慮を損なわない範囲で、薬剤の割付方法、症例報告書への割付薬剤の記載方法、モニタリング方法などを工夫し、モニター（試験が適切に行われているか監視する人）、データマネジメント担当者、解析担当者などが、できるだけ試験治療の割付情報を知ることがないように努めるべきです。
盲検下での見直し: 被験者の解析上の取り扱いや試験計画の見直しを行う場合には、非盲検試験であっても、可能な限り盲検下で行うべきです。

これらの手続きは、試験結果の客観性と信頼性を確保するために非常に重要です。

Q10. GCP（医薬品の臨床試験の実施の基準）には「統計解析計画書」について書かれていないけど、これって申請資料の中でどういう扱いになるの？

A10. 承認申請に必須の書類ではありませんが、治験実施計画書を補足する重要な文書です。審査当局から求められたら提出できるように、きちんと作成・保管しておきましょう。

臨床試験の計画や実施、記録に関するルールを定めた基準が「GCP (Good Clinical Practice)」です。このGCPでは、「統計解析計画書 (SAP: Statistical Analysis Plan)」の作成が必須とは直接的には規定されていません。

統計解析計画書（SAP）とは？

統計解析計画書（SAP）は、「治験実施計画書（プロトコル）」で概説された統計解析の方法を、さらに詳細かつ具体的に記述した文書です。治験実施計画書が試験全体の設計図だとすれば、SAPはデータ解析部分の詳細設計図のようなものです。

SAPには、例えば以下のような内容が具体的に記載されます。

主要評価項目、副次評価項目は何か
解析対象集団の正確な定義（Q8参照）
具体的な統計解析手法（どの統計モデルを使うか、どの検定方法を用いるかなど）
欠測データや異常値の取り扱い方法
中間解析を行う場合の詳細な手順（もし実施する場合）
有意水準や信頼区間の設定（Q2参照）

SAPの位置づけと重要性

治験実施計画書を補足する文書: SAPは、治験実施計画書の内容を補い、統計解析に関する具体的な手順を明確にする役割を果たします。
透明性と再現性の確保: 事前に詳細な解析計画を文書化しておくことで、試験の透明性が高まり、後から第三者が解析結果を検証（再現）しやすくなります。
恣意性の排除: 解析方法を事前に定めておくことで、結果を見てから都合の良いように解析方法を変更することを防ぎ、結果の客観性を高めます。

申請資料としての扱い

GCPで必須とされていないため、承認申請時に必ず提出しなければならない書類ではありません。

しかし、SAPは治験の質と信頼性を示す上で非常に重要な文書であるため、規制当局（審査を行う機関）から提出を求められた場合には、速やかに提出できるようにきちんと作成し、保管しておくべきです。

改訂履歴も重要: もし統計解析計画書を途中で改訂した場合は、その改訂履歴（いつ、何を、なぜ変更したのか）も合わせて保管し、必要に応じて提出できるようにしておく必要があります。

外国の臨床試験データを利用する場合

海外で行われた臨床試験のデータを日本の承認申請に用いる場合には、その試験の統計解析計画書について、日本語への翻訳や内容に関する詳しい説明を求められることがあります。

このように、統計解析計画書は、臨床試験の科学的な質と信頼性を担保するために、非常に重要な役割を担っています。

ICHとは？

新薬の研究開発を世界規模で促進し、患者さんへより迅速に優れた医薬品を届けることを目的に、日本、アメリカ、EUの医薬品規制当局と製薬業界の代表者が集まり、医薬品の品質・安全性・有効性に関する様々なガイドラインの国際的な調和（ハーモナイゼーション）を進めている会議です。

ICH E9ガイドラインの目的

このガイドラインは、臨床試験から得られる結果の「偏り（バイアス）を最小限にし、精度（正確さ）を最大限にすること」を目指しています。そのために、以下のような点が特に強調されています。

計画段階からの試験統計家の参加: 質の高い臨床試験を行うためには、計画の初期段階から統計学の専門家が深く関与することが不可欠です。
治験実施計画書における解析方法等の事前明記: 試験開始前に、どのような統計解析を行うのか、その妥当性も含めて具体的に治験実施計画書に記載しておくことの重要性が示されています。
多施設共同試験における考え方: 複数の医療機関で試験を行う際の、施設の捉え方や施設あたりの症例数の設定に関する考え方が示されています（Q4参照）。
総合評価変数を用いる際の留意点: 複数の評価項目をまとめて一つの指標として評価する際の注意点などが記載されています。

特に重要な変更点：有意水準の明確化

このガイドラインの施行に伴い、それまで明確にされていなかった検証的試験（薬の有効性を最終的に検証する試験）を行う際の有意水準（第一種の過誤）について、規制上の観点から、原則として以下のように定められました。

片側仮説を検証する場合：2.5%
両側仮説を検証する場合：5%

これは、臨床試験の結果を評価する上での重要な基準となります（Q2参照）。

旧ガイドラインからの移行

この通知により、それまでの「臨床試験の統計解析に関するガイドライン（平成4年3月4日薬新薬第20号）」は廃止されました。ただし、既に治験実施計画書が作成され実施されていた臨床試験への配慮として、一定の経過措置が設けられていました。

この解説が、ICH E9ガイドラインと臨床試験における統計的な考え方への理解を深める一助となれば幸いです。

参照：「臨床試験のための統計的原則」に関する質疑応答

Q1. 本ガイドラインで定義される試験統計家の要件とは具体的にどのようなものか。

(答)
現時点では、ガイドラインの「十分な理論又は実地の教育及び経験を合わせ持ち、臨床試験における統計的側面に責任をもつことができる者」という以上に具体的な要件は定められていない。治験依頼者は、ガイドラインの趣旨を踏まえ、生物(医学)統計学に関連して、大学等の教育機関において受けた教育の内容、卒業後の研修・訓練の状況、研究業績、実際の臨床試験に対してどのような立場でどの程度関わったかといった経験等を総合的に判断して個々の試験での試験統計家の選定に当たっていただきたい。

また、「治験の総括報告書の構成と内容に関するガイドライン(平成8年5月1日薬審第335号)」では、試験に関与した者の履歴等の文書を作成することを求めている。審査の際には必要に応じ、どのような者が試験統計家として選定されたか確認するため、これらの資料の提出を求めることがある。

Q2. 片側検定又は両側検定のどちらを用いるか、またそこでの有意水準をいくらにすべきかを、優越性試験と非劣性試験のそれぞれで説明願いたい。

(答)

ガイドラインでは、同等性を示す場合には両側信頼区間、非劣性試験では片側信頼区間による解析を行うことが記載されているが、一般には推測を片側と考えるか両側と考えるかには議論があり一概に決められるものではないとされている。また、有意水準についても、個々の試験において適切な基準を設定すべきである旨の記載がある。

しかしながら、推論を片側とするか両側とするかにより統計的な判断に大きな差異が生じることは規制上の観点から望ましくない。また、一方で、臨床試験における有効性の評価では、検定により有意差があるか否かを判断するだけでなく、試験治療効果の大きさ(比較群間の差の大きさ)がどの程度であるかを推定することも重要である。

そこで、今後は、検証的試験においては、仮説の検定においてどちらの方法を用いる場合であっても、効果の推定には95％信頼係数の両側信頼区間を用い、検定の際の有意水準は、これによる判断との整合性を図るため、優越性試験、非劣性試験のいずれにおいても、片側2.5％又は両側5％とすることを原則とする。用量反応試験についても、用量反応性を示すことにより薬剤の有効性を検証するような試験においては上記と同様である。ただし、適切な説明ができるのであれば、より強固な有効性の根拠を示すために有意水準を厳しくする、稀少疾病用医薬品にみられる例のように十分な被験者を集めることが困難な場合は有意水準を緩くする、などの措置をとってもよい。

なお、生物学的同等性試験については、「後発医薬品の生物学的同等性試験ガイドライン(平成9年12月22日医薬審第487号)」により、90％信頼係数の両側信頼区間を用いるとされているが、臨床効果を指標に標準製剤との同等性を検証しようとする場合(臨床的同等性試験)は、上記と同様に95％信頼係数の両側信頼区間を用いることを原則とする。

Q3. 2.1.2には「一つの検証的試験からの証拠だけで十分であることもあり得る」とあるが、申請までに通常複数の検証的試験が必要であると考えるのか。

(答)

承認申請に当たっては、検証的試験により承認に関わる主張の裏付けとなる十分な証拠を提示する必要があるとともに、実際に薬剤が使用される状況や適用の範囲等を考慮して、意図している患者集団に対する一般化の根拠を説明できることが重要である。したがって、検証的試験が一つの場合には、承認の根拠となる証拠が十分に認められるか又は他の資料から一定の根拠が得られること等が必要であろう。また、一般化の根拠についても十分な説明が必要であり、例えば、少数の施設で限定された状況において行われた一つの検証的試験のみで広範囲での使用を予定した申請を行う場合には、特にその根拠を十分説明できることが必要である。

Q4. 多施設共同治験においては、どのような考え方で施設当たりの被験者数を設定すればよいか。

(答)

多施設共同治験に関しては、ガイドラインでは主に固定効果モデルを前提に議論されている。被験者数の設定については、施設効果及び試験治療と施設の交互作用を推定し、不均一性がみられた場合、試験の運営管理や被験者の特徴といった面から説明できるか十分に調べるべきであることから、施設当たりの被験者数を多くすることが原則であり、同時に施設間で被験者数に大きな差が生じないよう施設の選定に十分配慮する必要がある。具体的な被験者数は対象となる疾患や試験治療により異なるが、一群10例以上が一つの目安である。また、施設当たりの被験者数が少なくなる場合であっても、施設当たりの被験者数に大きな差が生じることのないよう配慮する必要がある。施設当たりの被験者数が少なくなる場合には、施設数が多くなることにより、混合モデルを用いることが適切な場合があるが、施設当たりの被験者数が少ないと治験の質及び盲検性を確保することが難しくなることが指摘されており、解析の結果不均一性がみられた場合であっても施設の運営管理や被験者の特徴と結びつけることは一般には困難であることに注意すべきである。

いずれにしても、これらの検討結果を一般化の議論と結びつけるためには、実際の臨床現場ではどのような治療が行われるかを念頭に置き、どのような施設を選定するかが重要である。

なお、ガイドラインで記載しているように、ここでいう施設は必ずしも一つの医療機関を指すものではない。特定の複数の医療機関について、試験実施の観点からは一つの医療機関とみなすことが可能とする適切な根拠があるときは、これらの医療機関をまとめて一施設として取り扱うことができる。

Q5. 「臨床試験の統計解析ガイドライン(平成4年3月4日薬新薬第20号)」では第Ⅲ相試験において2群比較を推奨していたが、3.3.2の記述は、この方針を変更して3群以上の比較試験を推奨していると考えるべきか。

(答)

3.3.2で記載されているとおり、例えば実薬を対照として行われる同等性試験又は非劣性試験においては、プラセボを加え3群の比較試験を行うことにより、重要な情報を得られる場合がある。同等性試験や非劣性試験に限らず、試験計画を立案する際には比較の型式についての十分な検討を行うことが重要であり、必要に応じてどのような計画を用いるか決定すべきである。したがって、2群比較のみを推奨するということはない。

なお、臨床試験における対照群の選択の問題は、ICHにおいて別途設けられた専門家委員会(E10)で検討が行われているので、そちらも参照されたい。

Q6. 同等性又は非劣性試験での同等限界はどのように設定すればよいか。

(答)

同等限界は、疾患の領域や薬剤の性質、評価変数が計数値か計量値かなどを考慮し、臨床的な見地から、それぞれ設定すべきであり、領域毎に専門的な合意が得られていることが望ましい。そうでない場合には、申請者が個々の臨床試験において臨床的に適切と考えられる値を設定することになるが、承認申請においては、設定した同等限界の妥当性の根拠を明示し、説明できることが重要である。実薬対照の非劣性試験を行う場合には、少なくともプラセボとの差が明確となる範囲を設定する必要がある。

Q7. 3.2では「試験治療の主効果は、最初に施設と試験治療の交互作用を含まず施設間差を考慮に入れるモデルを用いて調べることができる」とあるが、交互作用の有無を最初に検討しないのはなぜか。

(答)

本ガイドラインは、試験治療効果をまず調べるという立場で記載されており、このような考え方に立って、施設と試験治療の交互作用を含めず施設間差を考慮に入れるモデルを用いて調べる方法が記載されている。これは、交互作用を考慮しなくてよいという意味ではない。むしろ、このようなモデルで解析を行った場合には、仮に交互作用が存在する場合であっても、その影響を上回る差が試験治療間に存在することが必要である。

主効果の存在が確認された場合は、交互作用を調べ、交互作用が認められた場合には結果の安定性を確認することが必要である。特に質的な交互作用が認められた場合にはその理由を考察すべきである。理由が十分に説明できない場合は、追加の試験が必要となる。

また、主効果が認められないときには、仮に交互作用の検討の結果、試験治療がある条件の下に有効であることが示唆されるような場合であっても、新たにそのような条件を考慮した検証的試験を行うことが必要である。

Q8. 本ガイドラインにある二つの解析対象集団（最大の解析対象集団と治験実施計画書に適合した対象集団）のどちらを主とするかをどのように選択すればよいか。

(答)

基本的には本ガイドラインでは最大の解析対象集団を主要な解析対象集団とすることを推奨しているが、同等性試験又は非劣性試験においては、最大の解析対象集団を用いることが必ずしも保守的であるとは言えないことから、その役割を十分慎重に考慮した上で判断すべきである。

一般に、二つの解析集団が著しく乖離するのは、治験実施計画書が遵守されていない場合、治験実施計画書に不備がある場合などが考えられる。どちらも試験の信頼性を損なうものであることから、試験の計画、実施に当たっては二つの解析集団ができるだけ一致するよう努力すべきである。このためには、すべての被験者を可能な限り追跡することも重要である。また、何らかの原因により二つの解析対象集団に乖離が生じた場合には、乖離の原因を明らかにしてそれが結果の偏りをもたらす可能性を吟味し、さらに二つの集団で解析結果がどのように異なるかを検討する必要がある。

Q9. 被験者の解析上の取扱いはどの時点までに決定しておくべきか。

(答)

被験者の解析上の取扱いは、原則として事前に治験実施計画書に記載しておくべきである。しかし、計画書の作成段階では取扱いを定めることができない事項、又は実施中の情報により取扱いを見直さなければならない事項は、盲検下で検討を行い、その取扱いを定めることになる。

なお、従来症例検討の際に慣例的に行われてきたように、試験計画書に記載された取扱いの基準を盲検下レヴューの際に緩和することは望ましくない。試験開始後に、変更又は新たに定める取扱い事項が多いことは試験の妥当性を大きく損なうことに注意すべきである。

非盲検比較試験の場合であっても、被験者への安全上の対策を損なわない範囲で、割付方法、症例報告書への割付薬剤の記載方法、モニタリング方法等を工夫し、可能な限りモニター、データマネジメント担当者、解析担当者等が試験治療の割付を知ることがないようにするとともに、被験者の解析上の取扱い及び試験計画の見直しを行う場合には、可能な限り盲検下で行うべきである。

Q10.GCPでは統計解析計画書に関する記載はないが、統計解析計画書は申請資料の中でどのように位置づけられるのか。

(答)

統計解析計画書は承認申請の必須文書ではないが、治験実施計画書を補足し、解析の詳細を記述したものであるから、要求があれば提出できる形で作成しておくべきである。統計解析計画書の改訂を行っている場合はその履歴も同様である。

なお、外国臨床試験データが申請資料とされている場合には、統計解析計画書の翻訳及び説明を要求することがある。

参照

https://www.pmda.go.jp/files/000156112.pdf

医薬審第1047号　平成10年11月30日

各都道府県衛生主管部(局)長殿

厚生省医薬安全局審査管理課長

「臨床試験のための統計的原則」について

近年、優れた新医薬品の地球的規模での研究開発の促進と患者への迅速な提供を図るため、承認審査資料の国際的ハーモナイゼーション推進の必要性が指摘されている。このような要請に応えるため、日･米･EU三極医薬品規制調和国際会議(ICH)が組織され、品質、安全性及び有効性の3分野でハーモナイゼーションの促進を図るための活動が行われている。

別添の「臨床試験のための統計的原則」(以下「本ガイドライン」という。)は、ICHにおける合意に基づき、臨床試験における統計的原則について記載したものであり、臨床試験から得られる結果の偏りを最小にし、精度を最大にすることを目標としている。特に、計画段階から試験統計家が参加すること、治験実施計画書の作成に当たっては解析方法等について妥当性も含め事前明記すること等が強調されており、多施設共同試験における施設の捉え方及び施設当たりの症例数の設定に関する考え方、総合評価変数を用いる際の留意点等についても記載されている。また、検証的位置づけの試験を行う際の有意水準(第一種の過誤)については従来明確にされていなかったが、規制上の観点から、本ガイドラインの施行に伴い、原則として片側仮説を検証する場合は2.5％、両側仮説の場合は5％とすることとした。これらについては、ガイドラインの該当個所及び関係する質疑応答を参照されたい。

本ガイドラインは、本通知の日以降施行し、これに伴い、「臨床試験の統計解析に関するガイドライン(平成4年3月4日薬新薬第20号)」(以下「旧ガイドライン」という。)は廃止する。ただし、治験実施計画書の作成にかかる事項については、既に治験実施計画書が作成され、実施されている臨床試験もあることから、このような場合に配慮し、臨床試験の実施に先立って治験実施計画書が確定される日が平成10年12月31日以前の場合は、被験者数の決定方法も含め旧ガイドラインを参考とした事項があっても差し支えないが、そのような場合であっても、治験実施計画書の改訂又は統計解析計画書の作成を含め、本ガイドラインの趣旨に添って適切と考えられる事項については可能な限り適用することとされたい。

以上の点を御了知の上、貴管下関係者に対し周知方ご配慮願いたい。

リンク