研究を行うためにはデータが必要ですが、どれくらいの量のデータが必要なのかは研究によって様々です。
「どれくらいの量のデータが必要なのか」を考える時に出てくるのが、サンプルサイズです。
この記事で最も言いたいのは「サンプルサイズ設計はある種の賭けである」という点です。
そこだけ読みたいという方は、この記事の一番下の方へジャンプしてみてください(あるいはここをクリック)。
Table of Contents
サンプルサイズの考え方
さて質問です。あなたはとある新規成分Xを生み出しました。
口から水で飲みこむことのできるタイプの成分です。薬になるかもしれません。
いきなり人に対して投与するのは危なすぎるので、マウスを対象に動物実験を行うこととしました。
お金がなかったので3匹しか手に入らなかったのですが仕方ありません。
あまりに沢山のマウスを実験に使うというのは、倫理的にも良くないとも考え、3匹でいいだろう、とあなたは思いました。
さて、さっそく新規成分Xを投与しました。病気Dのモデルマウスです。
すると。
1匹は病気Dの症状が消えました。
1匹は何も変わりませんでした。
1匹は突然ものすごく暴れだし、しまいにはケージから飛び出して逃げ出してしまいました。
さて、この新規成分Xは、病気Dに効果があると言えるでしょうか。
サンプルサイズの大切さ
この話は、サンプルサイズ設計の大切さを語っています。
3匹というのは極端に少ないのですが、要するに少なすぎると結果の解釈ができなくなります。
また、多すぎるのも倫理的に問題ですし、費用や資源も無限にあるわけではないですから、上限というものは存在します。
では、目的を達成するためにどの程度の「数」が必要になるのか。
それを検討するのが「サンプルサイズ設計」です。
たとえ話:箱の中のコイン
中身の見えない箱が2つあったとします。
1つは赤い箱、もう1つは緑の箱です。
どちらの箱にも、コインが100枚ずつ入っているとしましょう。
箱の中のコインは、銀色か金色かの2種類のみです。他の色のコインはありません。
ほとんどのコインは銀色なのですが、何枚か金色のコインも混じっています。
銀色のコインは1枚1円の価値ですが、金色のコインは1枚1万円の価値があります。
あなたは、赤い箱か青い箱のどちらか1つを選んで持ち帰ることができます。
持ち帰った後は自分のものとして自由に使っていいことになっています。
当然ながら、金色のコインが多い方を持ち帰りたいですね。
ただし条件があり、中身を見てはなりません。
救済措置として、それぞれの箱から10枚を取り出して見てよい、と言われました。
そして取り出して見たところ、次のようになりました。
- 赤い箱:金色のコイン 6枚、銀色のコイン 4枚
- 緑の箱:金色のコイン 3枚、銀色のコイン 7枚
普通に考えて、赤い箱の方が金色のコインがたくさん入っていそうですね。
そのため、あなたは赤い箱を持ち帰りました。
ちゃんちゃん。
実際の話:臨床試験
この「箱の中のコイン」と同様の考えが、臨床試験の根底にあります。
順を追って見てみましょう。
既存の治療法Yでは、疾患Dを治せる確率は40%という現状があるとします。
そんな中、新しい治療法Xの開発が進められています。
では、新しい治療法では、疾患Dを治せる確率はどの程度でしょう。
もし、治せる確率以外、すべてが同じ条件(例:製造コスト、保管条件、投与経路といった利便性が同じ)だとすると、治せる確率は40%よりも高くないと、新しい治療法としての価値があまり見出せません。
- 実際にはあり得ませんが、仮に新治療法が疾患Dを治せる確率が、60%まで向上すると見込まれるとしましょう。実際にはこんなに劇的に向上することはほとんどありませんが、分かりやすくするためなのでお付き合いください。
そこで、仮想的にですが、前述の2つの箱の事例になぞらえてみましょう。
100人ずつ集めたらこんな分布になりそうですね。
- 新しい治療法グループ:治る人 60人、治らない人 40人
- 既存の儀療法グループ:治る人 40人、治らない人 60人
10人ずつ集めたらこんな分布になりそう。
- 新しい治療法グループ:治る人 6人、治らない人 4人
- 既存の儀療法グループ:治る人 4人、治らない人 6人
はたまた1000人ずつ集めたらこんな分布になりそうです。
- 新しい治療法グループ:治る人 600人、治らない人 400人
- 既存の儀療法グループ:治る人 400人、治らない人 600人
まさかまさかの10000人集めたら。
なんて想像するのは自由です。
ですが、前述のとおり、予算や資源に限界はあります。
1億人あつめるわけにもいきません。
そこでサンプルサイズを計算して、最低限、この人数がいれば誤差があっても許容範囲に収まる、という目安が得られます。
あくまで目安なんですよ。
サンプルサイズ設計の流れと要点
サンプルサイズ設計に必要な5つの要素
では、サンプルサイズ計算に必要な5つの情報を羅列します。
- 新治療法Xに見込まれる改善割合:今回は既存治療に比べて 60-40 = +20% の改善を見込みます。
- これは完全に「適当に」決めています。
- ベースとなる既存治療法Yの改善割合:今までの経験から40%と見込みます。
- この値は、根拠となる事実(過去の臨床データ)に基づいています。
- αエラーの大きさ:だいたいが0.05 (=5%) に設定されます。
- αエラー:本当は差がないのに、差があるという間違える確率
- βエラーの大きさ:だいたいが0.20 (=20%) に設定されます。
- βエラー:本当は差があるのに、差がないという間違える確率
- 片側検定か両側検定か:改善するかどうかを見たいのであれば、片側検定を選びます。
- ただ、既存治療法Yに劣る可能性もあるならば、両側検定を選びます。
- 片側検定の方がサンプルサイズが少なくて済むので片側検定にしたい気持ちも分かります。
サンプルサイズ設計はある種の「賭け」
「見込まれる改善度合い」「ベースとなる改善度」「αエラー」「βエラー」「検定方向(片側か両側か)」が決まれば、サンプルサイズ設計ができます。
αエラーとβエラーは慣習的に値が決まっているので思考停止しても大丈夫です。
検定方向も、迷ったら保守的に両側検定を選んでおきましょう。
ベースとなる改善度は、いままでの研究や、専門家への聞き取り調査などの情報収集でなんとかなることが多いです。たいてい、何かしらのヒントがあります。
問題は、「見込まれる改善度合い」です。ここが研究を企画する人の直感に頼る部分になります。
え?直感なの?と思うかもしれませんが、直感です。
研究というのは、どうなるか分からないことを確かめるという側面もありますから、「だいたいこんなもんやろ!」と適当に値を置いて、それを確かめる、という部分が少なからずあります。
その直感も完全なる直感ではなくて、いくつかの根拠をもとに推測することにはなるのですが、どこかに論理の飛躍が発生する気持ち悪さは受け入れましょう。
おわりに
以上、サンプルサイズ計算はギャンブルのような要素がありますよ、という話でした。
科学や研究というものも、その根底には「何が起きるかわからない」「何が正解かわからない」という不確定要素があります。
未知への挑戦という要素がありますから、賭けの要素はいつでもそばにありますよ。