治験におけるアダプティブ・デザインの基礎

治験に関する業務に携わっていると、アダプティブ・デザインという言葉を耳にすることは今では珍しくなくなりました。

十年ほど前では、ベイズ統計学をどうやって治験に盛り込むかというのは割とホットな話題でしたが、機械学習等も広く認知されるようになった現在、条件付き確率を治験のデザインに盛り込むというのはもはや常識となっている側面もあるでしょう。

とはいえ、アダプティブ・デザインを取り入れた治験だということはなんとなくわかっていたとしても、それが実際にどんなものなのか具体的には説明が難しいという方も少なくないのではないでしょうか。

そのような方に向けて本記事を執筆しました。

Table of Contents

そもそもアダプティブ・デザインやベイズ統計学とは？

アダプティブ・デザイン

アダプティブ・デザインとは、「試験を実施している最中に、試験中で収集され蓄積されたデータに基づき、試験を適応（adapt）させていく試験デザイン」といったところです。

試験中に収集されたデータや情報をもとに、試験の方向性を（微）修正させていくイメージですね。

試験の方向性を微修正する主な目的は、リソースの効率的な配分です。

ここで誤解してはならないのは、「どのように適応（adapt）するかは、計画（あるいはデザイン）に従う」という点です。

もともとの計画（あるいはデザイン）もなく、事後的に研究計画の不備を補うような目的で行うものではない、ということです。

そして、どういった場面でアダプティブ・デザインが適応されるのかですが、主に次の3つの場面があります。

用量検索（Adaptive Dose Finding Design）
シームレス第Ⅱ/Ⅲ相（Seamless Phase II/III Design）
症例数の再設定（Sample Size Reestimation）

ベイズ統計学

ベイズ統計学とは、ベイズの定理に基づいて確率を解釈する統計学です。

ベイズの定理は、高校数学では条件付き確率として習うものですね。

高校数学でよく出てくる数式で表すと次のようになります。

P(A|B) = P(A) × {P(B|A) / P(B)}

P(A|B)：「事象Bが起こるという条件のもとで事象Aが起こる確率」
P(A)：「事象Aが起こる確率」

ベイズ統計学では、事前確率、事後確率、客観的確率、主観的確率、といった言葉が飛び交います。

前述の式でいうなら、P(A|B)が事後確率、P(A)が事前確率になります。

P(A|B)：事後確率「事象Bが起こるという条件のもとで事象Aが起こる確率」
P(A)：事前確率「事象Aが起こる確率」

本記事ではベイズ統計学に踏み込むと本題に入れなくなるので、「高校数学で習った条件付き確率の話が絡んでいる」くらいに捉えておいてください。

割と根深い問題を抱えており、頻度主義（母数が不変） vs ベイズ主義（データが不変）という構図になっている、と捉えておくくらいで今のところは十分でしょう。

アダプティブ・デザインの適用場面

用量検索（Adaptive Dose Finding Design）

通常の治験では、用量設定のために、いくつかのパターンで用量を決め打ちします。

そして、決め打ちした用量を各群に分けて比較し、一番成績の良い群はどれか（＝一番成績の良い用量はどれか）を調べる、という具合ですね。

そのため、事前の用量設定の決め打ちのセンスが良ければ問題ないのですが、そもそもそこで理想的な用量が含まれていなかったら失敗に終わってしまう可能性もゼロではない、という怖さがあります。

例えば、2mg/体重kg/day が理想的な用量なのに、用量検討のための治験では 0.1 ~ 1.5 mg/体重kg/dayの幅しか検討されていなかったとしたら、その薬剤の理想的な用量についての情報が集まらないまま試験が終了してしまうことになります。

逆も然りで、0.01mg/体重kg/day が理想的な用量なのに、用量検討のための治験では 0.1 ~ 1.5 mg/体重kg/dayの幅しか検討されていなかったとしたら、過剰な量が投与された場合の情報しか得られません。当然ながら、前臨床の動物実験や、第Ⅰ相試験を通じて過剰な用量が設定されるようなことはほぼあり得ませんが、用量検討の決め打ちに伴うリスクとして想定することはできます。

実際、抗体医薬を始めとする生物製剤の場合、低分子化合物と異なり、必ずしも最大耐用量（MTD: maximum tolerated dose）の付近に至適用量があるとは限らない、ということもあるでしょう。

具体的に、アダプティブ・デザインを用量検討にどのように組み込むか、その具体的な方法は個々の論文や臨床試験の報告書を参照する方がよいために割愛しますが、その根底にある考えは非常にシンプルです。

「この量では全く効果がないだろう」あるいは「この量では多すぎて毒性が出てしまっているだろう」と考えられる用量に割り付けられた被験者に対して「プロトコールで定められているので、効いていなくても、あるいは毒性が見られていても、そのままの用量で継続する」ようなことはしない、というものです。

重要なのは、「どのタイミングで、どういった基準で変更を判断するか」や「変更後、その症例のデータを解析時にどのように扱うか」というところまで事前に決めておく、ということです。

効かない用量や、毒性が出てしまう用量のまま継続することは倫理的にも問題があるため、うまくアダプティブ・デザインを取り入れることができれば、そういった症例の脱落を防ぐことにも繋がることが期待されます。

シームレス第Ⅱ/Ⅲ相（Seamless Phase II/III Design）

従来、第Ⅱ相試験と第Ⅲ相試験は別個の試験として独立して実施されていましたが、それをシームレスに実施してしまおうという発想がシームレス第Ⅱ/Ⅲ相試験です。

大雑把に表現すると、第Ⅱ相試験（探索的試験）に参加した被験者の方々に、そのままシームレスに第Ⅲ相試験（検証的試験）にも参加していただこう、ということですね。

第Ⅱ相試験（探索的試験）では、投与量や投与間隔をいくつかパターン分けし、有効性や安全性に関するデータを集め、もっともよい投与量や投与間隔を決めていくことになります。

そして、「もっともよい投与量や投与間隔」が決まったら、それをより大きな人数で検証するのが第Ⅲ相試験です。

シームレス第Ⅱ/Ⅲ相試験では、第Ⅱ相試験では「もっともよい投与量や投与間隔」に割り付けられなかった被験者の方々も、「もっともよい投与量や投与間隔」に再度割り付け直して検証するイメージです。

とはいえ、全員が新薬群に割り付けられるわけではなく、対照群に割り付けされ直す場合もゼロではないので、そのあたりをどうするか事前に決めておくのもアダプティブ・デザイン採用時に重要になってきます。

シームレス第Ⅱ/Ⅲ相試験で、最終的に有効性や安全性に対する結論を下すための解析を行う際に、用量設定段階（従来の第Ⅱ相試験段階）のデータを用いるのか、それとも用いないのか、という点も議論の余地がある部分でしょう。

症例数の再設定（Sample Size Reestimation）

用量検索やシームレス第Ⅱ/Ⅲ相に比べると、症例数の再設定にアダプティブ・デザインを用いるのはあまり推奨されないでしょう。

要するに「試験の規模が大きすぎて無駄が生じている」か「試験の規模が小さすぎて試験の目的が達成できない」ような状況が起きていたら、試験の組み入れ数を増やしたり、現状参加している被験者をどこかで減らす、ということです。

普通であれば、試験のための必要症例数の計算は事前に文献やその他の情報をもとに設計して変えることはありません。

試験を計画している時に、使える情報に制限がある場合にやむを得ず設定する、という程度に止めておくのが無難でしょう。