統計学

p値だけ見て満足?「効果量」でわかる本当の差

皆さん、こんにちは。研究論文やデータ分析の報告書で、「統計的に有意な差がある」という言葉を目にすると、私たちはその結果が非常に重要であるかのように感じてしまいます。しかし、その「差」が現実の世界でどれほどの意味を持つのか、本当に私たちの意思決定や実践に役立つ価値があるのか、深く考えたことはありますでしょうか。

例えば、ある新しい学習法が従来の学習法よりもテストの点数を向上させることが、統計的な検定によって「有意」であると示されたとします。この結果だけを聞くと、すぐにでも新しい学習法を導入すべきだと考えてしまうかもしれません。しかし、もしその点数の差が、平均してわずか0.1点だったとしたらどうでしょう。統計的には「有意」かもしれませんが、そのために教材をすべて買い替え、指導法を根本から変えるほどの価値があるとは、おそらく誰も思わないでしょう 1

ここに、統計的有意性だけを見ることの落とし穴があります。「差がある」ということは分かっても、その差が「どれくらい大きいのか」という、最も重要な情報が抜け落ちてしまうのです。この問題意識は、近年ますます重要性を増しています。特に、大量のデータを容易に収集できる「ビッグデータ」の時代においては、ごくわずかな、実質的には意味のない差でさえも、参加者の数が多いために統計的に「有意」と判断されてしまうことが頻繁に起こります 2。この状況は、私たちがデータを誤って解釈し、間違った結論を導き出すリスクを高めています。

そこで、皆さんと一緒に考えたいのが、「効果量(Effect Size)」という、もう一つの「ものさし」です。効果量とは、統計的な差や関連が見られたときに、その「差の大きさ」や「結果の重要性」を客観的な数値で示してくれる指標です 3。これを使うことで、私たちは統計的有意性の向こう側にある、結果の「実用的な価値」を正しく評価することができるようになります。

この記事では、効果量の中でも最も広く使われている「Cohenのd」に焦点を当て、その基本的な考え方から、具体的な計算方法、そして結果を解釈する上での注意点まで、一歩一歩丁寧に解説していきます。

なぜp値だけでは不十分なのか

データ分析の世界に足を踏み入れた人が最初に出会う強力なツールの一つに、仮説検定と、その結果として算出されるp値があります。しかし、この身近なツールが万能ではないこと、そしてその限界を理解することが、より深いデータ理解への第一歩となります。

「統計的に有意」の意味を再訪する

まず、私たちが頻繁に使う「統計的に有意」という言葉の意味を、正確に確認しておくことから始めましょう。この言葉の背景には、「帰無仮説検定」という統計的な枠組みが存在します。これは、研究者が証明したい仮説(例えば、「新しい薬には効果がある」)とは反対の仮説、すなわち「帰無仮説」(「新しい薬には効果がない」)を立て、手元のデータがこの帰無仮説を否定するのに十分な証拠となるかを検証する手続きです。

この過程で算出されるのがp値です。p値とは、「もし帰無仮説が本当に正しいとしたら、今回観測されたデータ、あるいはそれ以上に極端なデータが得られる確率」を意味します 4。例えば、p値が0.03だったとしましょう。これは、「もし薬に全く効果がないとしたら、今回観察されたような治療効果(か、それ以上の効果)が偶然起こる確率は3%である」ということを示しています。この確率が、あらかじめ決めておいた基準(通常は5%、つまり0.05)よりも十分に小さい場合、私たちは「それは偶然とは考えにくい」と判断し、帰無仮説を棄却します。そして、対立仮説、つまり「薬には効果がある」という結論を採択するのです。これが、「統計的に有意な差が認められた」という判断の論理的な構造です。

しかし、ここで非常に重要な注意点があります。p値は、帰無仮説が正しいという仮定の上でのデータの出やすさを示すものであり、「研究対象の仮説が正しい確率」や「データが単なる偶然によって生じた確率」そのものを測るものではありません 5。この誤解は非常に広まっていますが、p値の解釈を誤る第一歩となるため、明確に区別しておく必要があります。

第一の限界:p値が語らないこと

帰無仮説検定が教えてくれるのは、あくまで「帰無仮説を棄却できるか、できないか」という二者択一の判断です。先ほどの例で言えば、「薬に効果がないとは言えない」という可能性を退けたに過ぎません。つまり、「差がないとは言えない」あるいは「関連がないとは言えない」と述べているだけであり、その差や関連が具体的に「どの程度の大きさ」なのかについては、p値は何も語ってくれないのです 6

研修の効果を測定する調査を考えてみましょう。研修前と研修後で、従業員のエンゲージメントスコアを比較し、p値が0.01という非常に小さい値になったとします。この結果は「統計的に有意」であり、研修に何らかの効果があったことを示唆しています。しかし、そのスコアの上昇幅が50点満点中20点なのか、それともわずか0.5点なのか、p値だけでは全く分かりません。もし後者であれば、統計的には有意でも、多大なコストをかけて全社的に展開するほどの価値はないかもしれません。

このように、p値は効果の「有無」に関する証拠の強さを示唆する一方で、その効果の「重要性」や「実用的な意味」を評価するための情報、すなわち「大きさ」に関する情報を全く提供しないのです。これがp値の第一の、そして最も根本的な限界です。

第二の限界:サンプルサイズの影響

p値が抱えるもう一つの深刻な問題は、その値がサンプルサイズ、つまり調査に参加した人の数に大きく依存する点です 8。同じ現象を観察していても、サンプルサイズが大きくなればなるほど、p値は小さくなる傾向があります。これは、サンプルサイズが大きいほど、母集団の真の値をより正確に推定できるようになり、ごくわずかな差であっても「偶然ではない」と検出しやすくなるためです 9

この性質は、一見すると望ましいように思えるかもしれません。しかし、実際には大きな問題を引き起こします。なぜなら、実質的にはほとんど意味がないような、取るに足らない小さな差であっても、サンプルサイズを十分に大きくすれば、統計的に「有意」な結果として示されてしまうからです 9

提供された資料にある例を考えてみましょう。ある二つの指標間の関連の強さ(相関係数)が0.07だったとします。これは、二つの指標の間にはほとんど直線的な関係がないことを示す、非常に弱い相関です。このデータをグラフ(散布図)にしてみると、点が雲のように広がっているだけで、明確なパターンは見えないでしょう。サンプルサイズが100人の場合、この程度の相関ではp値は大きくなり、「有意な相関はない」と結論づけられるはずです。

しかし、もし同じ相関の強さ(0.07)のまま、サンプルサイズだけを1000人に増やして検定を行うと、p値は0.05を下回り、「統計的に有意な正の相関が認められた」という結論が導き出されてしまう可能性があります。散布図の見た目は全く変わらず、実質的な関係性が強まったわけでもないのに、ただサンプルを多く集めたというだけで、結論が180度変わってしまうのです。

この現象は、特に数千、数万人を対象とするような大規模な組織サーベイやウェブのA/Bテストなどでは、極めて重要な問題となります。このような状況では、ほとんどすべての比較において何らかの「有意差」が見つかってしまい、帰無仮説検定が実質的に意味をなさなくなることさえあるのです 4

米国統計協会の声明

p値の誤用と誤解が科学研究全体に広まっていることを受け、2016年、米国統計協会(ASA)は異例の声明を発表しました 4。これは、統計学の専門家集団が、p値の適切な使用法について警鐘を鳴らし、より良い科学的実践を促すための歴史的な出来事でした。

この声明では、p値に関する6つの原則が示されましたが、その中でも特に重要なメッセージは、「科学的な結論やビジネス、政策における決定は、p値がある特定の閾値(例えば0.05)を超えたかどうかにのみ基づくべきではない」という点です 5。ASAは、p値が科学的推論の代わりになるものではなく、単一の数値やそれが恣意的な閾値を超えるかどうかだけで結論を出すような機械的な判断をやめるべきだと強く訴えました。

さらに声明は、p値が効果の大きさや結果の重要性を測定するものではないことを改めて強調しました 6。そして、このp値への過度な依存が、科学界に深刻な問題をもたらしていることを指摘しています。例えば、p値が0.05を下回った「成功した」研究だけが出版され、そうでなかった研究がお蔵入りになる「ファイルドロワー問題」。あるいは、有意なp値が得られるまで様々な分析方法を試す「pハッキング」といった、不適切な研究慣行です 6。これらの問題は、科学研究の再現性を損なう大きな原因となっています。

ASAの声明は、私たちに「p<0.05の時代」から脱却し、より包括的な視点を持つことを求めています。その解決策の一つとして強く推奨されているのが、p値だけに頼るのではなく、効果の大きさを示す指標や、結果の不確実性を示す信頼区間などを併記し、総合的に結果を判断することなのです 7。この提言こそが、私たちがこれから学ぶ「効果量」の重要性を裏付ける、強力な根拠となっています。

効果量の導入

p値という馴染み深いツールが持つ限界、特に「差の大きさ」を伝えられないという根本的な問題を見てきました。では、この問題を乗り越え、研究結果の実質的な意味を評価するためには、どのような道具が必要なのでしょうか。その答えが「効果量」です。

効果量とは、その名の通り「効果の大きさ」を定量的に示す指標の総称です 1。それは、二つのグループ間の平均値の差、ある介入がもたらした変化の大きさ、あるいは二つの変数の間の関連の強さなど、研究で検証される様々な「効果」のマグニチュードを表現します 11

効果量が持つ最大の利点の一つは、p値とは対照的に、サンプルサイズの影響を直接受けないという性質です 11。ある介入が持つ真の効果の大きさが中程度であれば、サンプルサイズが小さくても大きくても、算出される効果量の値は中程度の大きさを示すことが期待されます。これにより、私たちはサンプルサイズの違いに惑わされることなく、効果そのものの大きさに焦点を当てて結果を評価することができます。

もう一つの重要な特徴は、効果量が「標準化された」指標であるという点です 19。標準化されているとは、元のデータの単位(例えば、テストの点数、身長のセンチメートル、体重のキログラムなど)に依存しない、共通の尺度で効果の大きさを表現できることを意味します。これにより、全く異なる測定単位を用いた複数の研究結果を、同じ土俵の上で比較することが可能になります。例えば、「新しいAという勉強法が数学のテストの点数に与える効果」と、「Bという運動プログラムが体力測定のスコアに与える効果」の大きさを、効果量という共通の言語を使って比べることができるのです。

この性質は、特に「メタ分析(メタアナリシス)」と呼ばれる研究手法において絶大な力を発揮します。メタ分析とは、ある特定のテーマに関する過去の複数の研究結果を統計的に統合し、より信頼性の高い全体的な結論を導き出そうとする手法です。このとき、個々の研究で用いられた測定尺度がバラバラであっても、効果量に変換することで、すべての研究結果を統合して分析することが可能になるのです 3

効果量には様々な種類が存在しますが、それらは大きく二つの「族」に分類することができます 20。一つは、二つのグループの平均値の差の大きさを評価する際に用いられる「d族効果量」です。本記事のテーマであるCohenのdは、このd族の最も代表的なメンバーです。もう一つは、二つの変数の間の関連の強さ(相関)を評価する際に用いられる「r族効果量」で、相関係数rや決定係数R二乗などがこれに分類されます 3

ここで理解していただきたい最も重要なことは、効果量がp値の限界を補うための、不可欠なパートナーであるということです。p値が「その差は偶然か、偶然ではないか」という問いに答えるのに対し、効果量は「では、その差はどれくらい大きいのか」という、より実践的で重要な問いに答えてくれます。優れたデータ分析とは、この二つの問いの両方に答え、結果を多角的に解釈することに他なりません。

これは、単に新しい統計指標を学ぶ以上の意味を持ちます。それは、データの解釈をより深く、より豊かにするための、思考の転換です。効果量という普遍的な言語を身につけることで、私たちは個々の研究結果の表面的な意味を超えて、その本質的な価値を理解し、異なる知見を統合し、科学的知識を積み上げていくための強力な基盤を得ることができます。

Cohenのd:差を測る技術

効果量という広大な世界の中で、特によく知られ、広く使われているのが、心理学者ジェイコブ・コーエンによって提唱された「Cohenのd」です 21。これは主に、二つのグループの平均値を比較する際に、その差の大きさを測るための指標です。ここでは、Cohenのdがどのような考え方に基づいて構築されているのか、その核心に迫ります。

Cohenのdの基本的な考え方はシンプルです。それは、二つのグループの平均値の差を、そのデータのばらつき具合を示す代表的な値である「標準偏差」で割る、というものです 21。この単純な割り算に、効果量の本質が凝縮されています。

なぜ、単に平均値の差を見るだけでは不十分で、わざわざ標準偏差で割る必要があるのでしょうか。その理由を理解するために、提供された資料にある営業成績の例を詳しく見ていきましょう。二つの商品AとBがあり、それぞれの営業担当者全体の平均売上成績は、どちらも同じ50万円だったとします。ここにある営業担当者が現れ、商品Aと商品Bの両方で70万円の売上を達成しました。どちらも平均を20万円上回っており、絶対的な差の大きさは同じです。

しかし、ここで「データのばらつき」、つまり標準偏差を考慮に入れると、この20万円の価値が全く異なって見えてきます。もし商品Aの売上成績の標準偏差が20万円だったとします。これは、担当者による成績のばらつきが大きく、50万円の平均に対して70万円や30万円といった成績を取る人が比較的多く存在することを示唆します。この状況では、70万円という成績は優秀ではあるものの、特別に驚くべきものではないかもしれません。

一方で、商品Bの標準偏差がわずか10万円だったとします。これは、ほとんどの担当者の成績が平均である50万円の周りに密集しており、成績のばらつきが非常に小さいことを意味します。このような状況で70万円の成績を上げることは、極めて困難であり、非常に卓越したパフォーマンスであると評価できます。

Cohenのdは、この直感を数値化します。商品Aの場合、平均との差である20万円を、標準偏差の20万円で割るため、dの値は1.0となります。一方、商品Bの場合、同じ20万円の差を、標準偏差の10万円で割るため、dの値は2.0となります。このように、絶対的な差は同じでも、データのばらつきを考慮することで、商品Bでの成果の方が商品Aでの成果よりも「効果が大きい」と客観的に示すことができるのです。

この「標準偏差で割る」という操作は、「標準化」と呼ばれ、Cohenのdが持つ最も強力な特性の源です。この操作により、私たちは元の測定単位(この例では「円」)から解放されます。dの値が1.0であるということは、「平均値の差が、標準偏差1単位分に相当する大きさである」ということを意味します 21。これにより、例えば「テストの点数」と「売上金額」のように、全く単位の異なる測定値であっても、その効果の大きさを同じ土俵で比較することが可能になるのです 19

そして、この標準化の考え方は、どの標準偏差を分母として用いるかという、より深い議論につながります。研究のデザインによって、最も適切に「母集団のばらつき」を推定する方法は異なるためです。独立した二つのグループを比較する場合、両方のグループのばらつきを統合した「プールされた標準偏差」を用いるのが一般的です 18。これは、二つのグループが元々は同じようなばらつきを持つ母集団から来ていると仮定し、両方のサンプル情報を利用して、より安定したばらつきの推定値を得ようとする考え方です。

一方で、同じ対象者に対して介入の前後を比較するような「対応のある」デザインの場合、関心の対象となるのはグループ内のばらつきではなく、個人の中での「変化のばらつき」です。そのため、この場合は個々人の差の得点(ビフォーアフターの差)を算出し、その「差の得点の標準偏差」を分母として用います 22

このように、Cohenのdの計算における分母の選択は、単なる技術的な手続きではなく、研究デザインの背後にある論理と密接に結びついています。どのようなばらつきを基準として差の大きさを評価するのが最も適切か、という統計的な判断がそこに反映されているのです。この点を理解することで、私たちはCohenのdを単なる計算式としてではなく、データが持つ物語を読み解くための洗練された思考のフレームワークとして捉えることができるようになります。

Cohenのdが活躍する三つの場面

Cohenのdは一つの指標ですが、その適用場面は一つではありません。研究のデザインや検証したい問いに応じて、その計算方法と解釈の仕方は少しずつ異なります。ここでは、Cohenのdが活躍する代表的な三つのシナリオ、いわば「三つの顔」について、それぞれ具体的な状況を思い浮かべながら、その考え方と計算のプロセスを解説していきます 13。これらのシナリオは、統計学でよく用いられるt検定の三つのタイプ(1サンプルt検定、独立サンプルt検定、対応のあるt検定)と見事に対応しており、この対応関係を理解することが実践への近道となります。

シナリオ1:ベンチマークとの比較(1サンプルの場合)

最初のシナリオは、ある一つのグループの平均値が、あらかじめ定められた基準値や目標値とどの程度異なるかを評価する場合です。これは統計学的には「1サンプルt検定」に対応する状況です。

例えば、ある企業のコールセンターで、顧客満足度の平均スコアの目標値を100点満点中80点に設定したとします。そして、ある月の実績データを集計したところ、平均スコアは75点でした。この時、「目標に対してどれくらい未達だったのか」その差の大きさを評価したいと考えます。この「目標値80点」がベンチマーク(統計学では母平均 μ(ミュー)として扱われることが多い)となります 27

この場合のCohenのdの計算は、次のような思考プロセスをたどります。まず、観測された平均値(75点)と目標値(80点)の差を計算します。この例ではマイナス5点です。次に、この差がどれほどの意味を持つかを評価するために、その月の顧客満足度スコア全体のばらつき、すなわち標準偏差でこの差を割ります。もし標準偏差が10点だったとすれば、マイナス5点を10で割るため、効果量はマイナス0.5となります。これは、目標に対して標準偏差の半分ほどの大きさで未達であったことを意味します。絶対値である0.5は、後述する基準に照らせば「中程度の効果」と解釈されるかもしれません。

このように、一つのグループのデータと、外部から与えられた一つの基準値とを比較するのが、Cohenのdの第一の顔です。組織の目標管理や、過去の全国平均との比較など、実務においても非常に活用場面の多い使い方と言えるでしょう。

シナリオ2:独立したグループの対決(独立サンプルの場合)

二つ目のシナリオは、互いに独立した二つの異なるグループを比較する場合です。これは「独立サンプルt検定」が用いられる、最も典型的な研究デザインの一つです。

例えば、新しい営業研修プログラムの効果を測定するために、営業部員をランダムに二つのグループに分け、一方のグループ(研修群)には新しい研修を、もう一方のグループ(統制群)には従来の研修を受けてもらいます。研修期間終了後、両グループの平均契約数を比較し、その差の大きさを評価したいと考えます。

この場合のCohenのdの計算プロセスは次のようになります。まず、研修群の平均契約数と、統制群の平均契約数の差を算出します。そして、この差を「プールされた標準偏差」で割ります 18。ここで登場する「プールされた標準偏差」という概念が重要です。これは、二つのグループのばらつき(標準偏差)は、元々は同じ母集団から来ているため等しいはずだ、という仮定のもと、両グループのサンプルサイズを考慮して標準偏差を合算し、平均化したものです。片方のグループのばらつきが偶然小さかったり大きかったりする影響をならし、より安定した、信頼性の高いばらつきの推定値を得るための工夫と言えます。

この計算によって得られたdの値は、二つのグループ間の差が、この統合されたばらつきの尺度に対してどれくらいの大きさを持つかを示します。これが、Cohenのdの第二の、そして最も広く知られた顔です。

シナリオ3:ビフォーアフターストーリー(対応のあるサンプルの場合)

三つ目のシナリオは、同じ対象者に対して、何らかの介入や時間の経過を挟んで二回測定を行い、その変化の大きさを評価する場合です。これは「対応のあるサンプルt検定」や「ペアサンプルt検定」と呼ばれる状況に対応します。

例えば、従業員のストレスレベルを軽減するための新しい福利厚生プログラムを導入し、その効果を検証したいとします。プログラム導入前に全従業員のストレススコアを測定し(事前測定)、導入から3ヶ月後に再度同じ従業員のストレススコアを測定します(事後測定)。そして、この前後でのストレススコアの変化の大きさを評価します。

この場合のCohenのdの計算プロセスは、先の二つとは少し異なります。ここでの関心事は、グループ全体の平均値そのものではなく、個々人の「変化」にあります。そのため、計算の第一歩として、まず各従業員について「事後スコアから事前スコアを引いた値」、すなわち「差の得点」を算出します。ストレスが軽減していれば、この値はマイナスになるでしょう。

次に、全従業員のこの「差の得点」の平均値を計算します。これが、プログラムによる平均的な変化量となります。最後に、この平均変化量を、個々人の「差の得点の標準偏差」で割ります 22。分母が、単なる事前または事後のスコアの標準偏差ではなく、「差の得点の標準偏差」であるという点が極めて重要です。これは、私たちが評価したいのが、個人の中での変化の大きさであり、その評価基準となるべきばらつきもまた、個人間の「変化の仕方のばらつき」であるべきだ、という考えに基づいています。

このように、同じ対象者内での変化を追跡するのが、Cohenのdの第三の顔です。教育効果の測定、治療効果の検証、トレーニングの効果測定など、時間的な変化を捉えたい多くの研究デザインで不可欠なアプローチとなります。

これら三つの顔を理解し、自分の研究デザインがどれに当てはまるかを正しく判断することが、Cohenのdを適切に使いこなすための鍵となります。それぞれの計算の背後にある論理的な違いを把握することで、私たちは単なる計算者から、データの本質を読み解く分析者へと成長することができるのです。

Cohenのdの大きさを解釈する方法

Cohenのdを計算し、例えば「dの値は0.65です」という結果が得られたとします。しかし、この数字自体は、それが何を意味するのかを知らなければ、ただの無機質な値に過ぎません。この章では、算出されたdの値が示す「効果の大きさ」を、どのように解釈すればよいのか、そのための二つの主要なアプローチと、解釈する上での重要な心構えについて学びます。

コーエンの基準値

Cohenのdを解釈するための最も手軽で広く知られている方法が、提唱者であるジェイコブ・コーエン自身が示した経験的な基準値を用いることです。彼は、行動科学の分野における多くの研究を概観した上で、効果量を解釈するための大まかな目安として、三つの値を提案しました 3

その基準とは、dの値が0.2であれば「小さい(small)効果」、0.5であれば「中程度(medium)の効果」、そして0.8であれば「大きい(large)の効果」と見なす、というものです 13。これらの数値は、効果量を初めて学ぶ者にとって、得られた値がどの程度のインパクトを持つのかを直感的に把握するための、非常に便利な出発点となります。

さらにコーエンは、これらの抽象的な基準がより具体的にイメージできるよう、直感的な例えを挙げています 13。例えば、dが0.2程度の「小さい効果」とは、成人男性と成人女性の知能検査の平均点の差くらいの大きさに相当すると述べています。確かに性別による平均点の差は存在するかもしれませんが、それは個人の能力差に比べれば小さく、簡単に覆る程度の差である、という感覚的な理解が得られます。

対照的に、dが0.8程度の「大きい効果」とは、博士号(PhD)を取得した人と大学に入学したばかりの新入生との間の、知能検査の平均点の差に匹敵するとされています。これは、専門的な訓練を極めた人と、これから学問を始める人との間には、誰の目にも明らかな能力差があるだろう、という直感と一致します。大きな効果量とは、そのくらいはっきりと認識できる差の感覚なのだと理解できます。

分布の重なり

コーエンが示したもう一つの、より視覚的で本質的な解釈方法が、二つのグループの得点分布がどの程度重なっているか、という観点から効果量を捉えるものです。これは、Cohenのdの大きさを、一方のグループの人が、もう一方のグループの平均点を上回る確率として解釈する方法です。

少し想像してみてください。ここに、得点が低いグループ(例えば、統制群)と、得点が高いグループ(例えば、研修群)の二つの得点分布の山があるとします。もし効果量がゼロ、つまりdの値が0.00であれば、二つの山の位置は完全に一致しています。このとき、得点が高いグループに属する人が、得点が低いグループの平均点を上回る確率は、当然ながら50%です。

ここから、効果量が大きくなるにつれて、得点が高いグループの山全体が、右側へ、つまり得点が高い方向へとスライドしていきます。dの値が0.2(小さい効果)のとき、得点が高いグループの約58%の人が、低いグループの平均点を上回ります。dの値が0.5(中程度の効果)になると、その割合は約69%に上昇します。そして、dの値が0.8(大きい効果)にもなると、得点が高いグループの約79%もの人が、低いグループの平均点を上回ることになります。効果量がさらに大きくなれば、この割合は100%に近づいていき、二つの分布はほとんど重ならない、完全に分離した状態になります。

この「分布の重なり具合」という解釈は、dの値を単なる大小のラベル(小・中・大)で判断するよりも、はるかに豊かな情報を提供してくれます。「d=0.5」という結果は、「研修を受けたグループの約7割の人が、研修を受けなかったグループの平均的な人よりも高い成績を収めた」というように、より具体的で説得力のある言葉で説明することが可能になるのです。

最も重要な点:文脈

ここまで、Cohenのdを解釈するための便利な基準や考え方を紹介してきましたが、ここで最も重要な注意点を伝えなければなりません。それは、これらの基準は絶対的なものではなく、解釈は常に「研究の文脈」に依存する、ということです。

実は、提唱者であるコーエン自身が、この0.2、0.5、0.8という基準値の安易な使用に対して、非常に慎重な姿勢を示していました 21。彼は、これらの基準を、他に比較するものが何もない場合にのみ使用されるべき「最後の手段」として位置づけており、むしろ積極的な使用を推奨してはいなかったのです。その理由は、これらの基準に明確な実証的根拠があったわけではなく、あくまで彼の主観的な観察に基づく「たたき台」に過ぎなかったからです。

後の研究者たちによる実証的な検討でも、分野や研究デザインによって典型的な効果量の大きさは大きく異なることが示されています 21。例えば、ある分野ではd=0.3という値が非常に大きな意味を持つ画期的な成果であるかもしれない一方で、別の分野ではごくありふれた、取るに足らない結果と見なされるかもしれません。また、介入にかかるコストや、その結果がもたらす影響の重要性によっても、同じd=0.2という値の重みは全く変わってきます。

したがって、私たちが効果量を解釈する際に取るべき最も賢明な態度は、まずCohenの基準を絶対視することをやめることです。そして、自分の研究分野における過去の研究結果(先行研究)をよく調べ、そこで報告されている効果量と比較することが重要です。また、その効果が持つ現実的な意味合い、例えば「この研修によって学習意欲がd=0.4上昇したことは、組織の生産性向上にどれくらい貢献するのか」といった、実践的な問いと結びつけて考える必要があります。

効果量の解釈に、万能の公式は存在しません。算出された数値を、その研究が置かれている文脈の中に丁寧に戻してあげて、その意味を深く考察すること。それこそが、データを真に理解するための、分析者に課せられた最も重要な役割なのです。

よくある落とし穴

Cohenのdは非常に強力なツールですが、その解釈には注意深い配慮が求められます。特に、統計的な数値と現実世界での意味との間には、時としてギャップが生じることがあります。この章では、効果量を扱う上で陥りがちな二つの大きな落とし穴と、その対処法について、深く掘り下げていきます。

「大きな効果、小さな意味」の罠

効果量dの値が大きいからといって、それが必ずしも実質的に大きな、あるいは重要な差を意味するとは限らない、という落とし穴があります。これは、Cohenのdが「平均値の差」を「データのばらつき」で割って算出される、というその構造自体に起因します。このため、分子である平均値の差がそれほど大きくなくても、分母であるデータのばらつき(標準偏差)が極端に小さければ、結果としてdの値は非常に大きくなることがあるのです。

この現象を理解するために、資料で提示されている具体的な例を見てみましょう 13。ある組織で、上司と部下の関係の質を、1(全く当てはまらない)から5(とても当てはまる)の5段階で評価するアンケートを実施したとします。組織は、この指標の平均点の目標を3点(どちらともいえない)に設定しました。調査の結果、実際の平均点は3.3点であり、目標値との差の効果量を計算したところ、d=1.00という非常に大きな値が得られました。

このd=1.00という数値だけを見れば、「目標をはるかに超える、極めて良好な関係性が築かれている」と結論づけてしまいそうです。しかし、ここでデータの詳細に目を向けると、異なる側面が見えてきます。もし、この時のデータの標準偏差が0.3だったとしたら、どう解釈すべきでしょうか。標準偏差が0.3と非常に小さいということは、回答者のほとんどが3点や4点といった、ごく狭い範囲に集中して回答したことを意味します。つまり、ほとんど全員が「まあまあ良好」と答えている、均一な状態です。

この状況で平均点が3.3点であったということは、確かに目標の3.0点を上回ってはいますが、その差はわずか0.3点です。5段階評価の中での0.3点の差を、「実質的に大きな差」と呼ぶことには抵抗があるかもしれません。にもかかわらず、回答のばらつきが極端に小さいために、計算上の効果量はd=1.00という大きな値になってしまったのです。

このように、効果量の大きさは、時として現実の感覚と乖離することがあります。この罠を避けるためには、効果量の値だけでなく、必ず元のデータの平均値や標準偏差、そして尺度の意味に立ち返って、その結果が実質的にどのような意味を持つのかを総合的に判断することが不可欠です。

小さな効果の重要性

先の例とは逆に、算出された効果量が「小さい」と判断された場合でも、それが現実世界では非常に重要な意味を持つケースも数多く存在します。効果量の大きさだけで結果を無意味だと断じてしまうのは、早計な判断である可能性があります。

例えば、職場のハラスメント問題を解決するために、意識向上研修を実施したとします。研修の前後でハラスメントに関する意識度を測定したところ、その変化の効果量はd=0.31でした。Cohenの基準によれば、これは「小さい」から「中程度」の間の効果であり、統計的なインパクトとしては、それほど大きくないように見えるかもしれません。この結果は、研修を受けた人のうち約62%が、研修前の平均的な意識レベルを上回ったことを示しています。

しかし、ハラスメントという問題の重要性を考えれば、この「小さな」一歩は、決して無意味ではありません。たとえわずかであっても、研修によって意識が向上したという事実は、組織が正しい方向に進んでいることを示す貴重な証拠です。特に、このような問題への取り組みの初期段階においては、この小さな前進が、将来のより大きな変化につながる重要な布石となる可能性があります。

また、提唱者であるコーエン自身も、全く新しい領域での研究や、初めての試みにおいては、計画や測定方法が洗練されていないために、得られる効果量が小さくなりがちであることを指摘しています。このような状況で得られた小さな効果量の結果を、単純に「失敗」と切り捨てるのではなく、次への改善点を見出すための出発点として捉えるべきでしょう。

これらの例が示すように、効果量の解釈は、その効果が測定されている文脈、問題の重要性、そして研究が置かれている段階などを総合的に考慮して行われるべきです。統計的な数値の大小だけでなく、その背景にある物語を読み解く想像力が、分析者には求められます。

効果量とサンプルサイズ

効果量を学ぶ上で、しばしば生じる誤解の一つに、サンプルサイズとの関係があります。前述の通り、効果量の「値そのもの」は、p値とは異なり、サンプルサイズが大きくなっても体系的に大きく(あるいは小さく)なるわけではありません。この性質が、効果量の大きな利点です。

しかし、だからといってサンプルサイズが効果量と無関係というわけではありません。ここで重要になるのが、効果量の「推定の精度」という観点です 13。私たちがサンプルデータから計算する効果量dは、あくまで母集団における「真の効果量」を推定した値に過ぎません。そして、あらゆる統計的推定がそうであるように、この推定には必ず誤差が含まれます。

サンプルサイズが小さい場合、この推定の誤差は大きくなります。つまり、計算されたdの値が、偶然によって真の値よりもかなり大きく、あるいはかなり小さく出てしまう可能性が高まるのです。例えば、わずか数十名のデータで計算すると、たまたま成績の良い人が集まったために、現実にはありえないほど大きなdの値が算出されてしまうことも珍しくありません。

一方で、サンプルサイズが大きければ大きいほど、推定の誤差は小さくなり、より正確に、より安定して真の効果量を捉えることができます。したがって、研究において大きなサンプルサイズを確保しようと努力することは、p値を小さくして「有意差」を出すためではなく、検証したい効果の大きさを、より精密に、より信頼性高く推定するために、依然として非常に重要なのです。

この点を理解することは、統計的検定における「検出力(Power)」の概念にもつながります。検出力とは、「もし母集団に本当に効果が存在する場合に、それを統計的に有意な結果として正しく検出できる確率」のことです。この検出力は、効果量が大きいほど、そしてサンプルサイズが大きいほど高くなります。研究を計画する段階で、想定される効果量の大きさに応じて、それを十分な確率で検出できるだけの適切なサンプルサイズを設計すること(検定力分析)が、質の高い研究を行う上での標準的な手続きとなっています。

RでCohenのdを計算する

これまでの章で、効果量、特にCohenのdの理論的な背景や解釈の方法について学んできました。この章では、いよいよ実践編として、統計解析ソフトウェアであるRを使って、実際にCohenのdを計算する手順を解説していきます。Rは無料で利用できる上に、非常に高機能であるため、学術研究からビジネスまで、幅広い分野でデータ分析に活用されています。ここでは、コマンドそのものを直接示すのではなく、Rを操作する際の思考のプロセスを、言葉で丁寧に説明していきます。

Rでの準備

まず、Rで分析を始める前に、基本的な準備を行います。Rの強力な機能の多くは、「パッケージ」と呼ばれる追加プログラムによって提供されています。Cohenのdを計算するためには、そのための機能が含まれたパッケージを自分のコンピュータに導入(インストール)し、現在のRのセッションで使えるように読み込む(ロードする)必要があります。

Cohenのdの計算でよく使われるパッケージには、例えばlsrやeffsizeといったものがあります 33。Rの操作画面で、特定のコマンド(install.packages関数)を使ってこれらのパッケージ名を指定すれば、一度だけインストール作業を行います。そして、Rを起動して分析を行う際には、毎回、別のコマンド(library関数)を使って、使いたいパッケージを呼び出す、という流れになります。

ベンチマークとの比較を計算する

最初のシナリオ、つまり一つのグループの平均値と、ある基準値(例えば目標値)との差の効果量を計算する方法です。これは1サンプルt検定に対応する状況でした。

lsrパッケージに含まれるcohensDという関数を使うと、この計算を簡単に行うことができます 27。この関数を使う際には、まず分析したいデータ(例えば、顧客満足度スコアのリスト)を関数に渡します。そして、比較の基準となる値をmuという引数(ひきすう)に指定します。例えば、目標値が80点であれば、「mu = 80」と指定するわけです。これにより、cohensD関数は、提供されたデータの平均値と指定されたmuの値との差を計算し、それをデータの標準偏差で割ることで、効果量dを算出してくれます 28

独立したグループの差を計算する

次に、二つの独立したグループ間の差の効果量を計算する方法です。これは独立サンプルt検定の状況です。

この計算も、lsrパッケージのcohensD関数や、effsizeパッケージのcohen.d関数を用いて行うことができます 30。主なデータの渡し方には二通りあります。一つは、グループ1のデータリストとグループ2のデータリストを、それぞれ別々に関数に渡す方法です。例えば、研修群の成績リストと、統制群の成績リストを引数として指定します。

もう一つの、より一般的な方法は、「フォーミュラ(formula)」と呼ばれる形式を使うものです。これは、「~(チルダ)」という記号を使って、「分析したい数値 ~ グループ分けの要因」という関係性を表現する方法です。例えば、一つの列に全参加者の成績が、別の列にその参加者がどちらのグループに属するか(例:「研修群」または「統制群」)が記録されているデータフレームがあるとします。この場合、「成績 ~ グループ」というように指定することで、Rはグループごとに成績を分けて、その平均値の差の効果量を計算してくれます。この方法は、データを整理しやすく、間違いが起こりにくいため、広く推奨されています。これらの関数は、特に指定しない限り、分母として二つのグループのばらつきを統合した「プールされた標準偏差」を自動的に用いて計算を行います。

対応のあるデータの変化を計算する

最後に、同じ対象者での前後比較など、対応のあるデータの効果量を計算する方法です。これは、計算方法が先の二つと異なるため、関数にそのことを明確に伝える必要があります。

lsrパッケージのcohensD関数を使う場合は、method = "paired"という引数を追加で指定します 29

effsizeパッケージのcohen.d関数であれば、paired = TRUEという引数を指定します 30。これらの引数を加えることで、関数は通常の独立サンプルの計算ではなく、対応のあるデータ専用の計算ロジックに切り替わります。具体的には、各個人の差の得点を算出し、その平均値を、差の得点の標準偏差で割る、という前章で学んだ通りの計算を内部的に実行してくれるのです。

このように、Rの関数は、私たちが統計理論に基づいて学んだ概念を、引数という形で直感的に操作できるように設計されています。どの関数を使い、どの引数を指定すべきかを正しく判断するためには、自分の研究デザインが三つのシナリオのうちどれに該当するのかを理解していることが不可欠です。理論の理解が、実践的なツールを正しく使いこなすための土台となるのです。このワークショップを通じて、皆さんが自信を持って自分のデータと向き合えるようになることを願っています。

より意味のあるデータ分析へ

この教科書を通じて、私たちは「統計的に有意」という言葉の向こう側にある、より豊かで実践的なデータ解釈の世界を探求してきました。その旅は、p値という馴染み深いツールの限界を理解することから始まり、その限界を乗り越えるための強力なパートナーとして「効果量」、特に「Cohenのd」という指標に出会いました。

私たちは、p値が「差があるかどうか」という問いに答える一方で、その差が「どれほど大きいのか」という、実用的な意思決定に不可欠な情報を提供しないことを見ました 6。また、p値がサンプルサイズに大きく依存するため、特に大規模なデータセットでは、実質的に意味のない差でさえも「有意」と判断されてしまう危険性があることも学びました 9。これらの課題は、米国統計協会が警鐘を鳴らすほどに、現代の科学研究における深刻な問題となっています 6

その解決策として登場したのが効果量です。Cohenのdは、平均値の差をデータのばらつきという共通の尺度で標準化することにより、研究の文脈や測定単位を超えて「効果の大きさ」を比較するための普遍的な言語を提供してくれます 19。私たちは、研究デザインに応じてCohenのdの計算方法が三つの異なる顔(ベンチマークとの比較、独立グループの比較、対応のあるデータの比較)を持つことを学び、それぞれの背後にある論理を理解しました。

さらに、算出されたdの値を解釈するための基準(小=0.2, 中=0.5, 大=0.8)や、より直感的な分布の重なりという考え方に触れると同時に、それらの基準を盲信する危険性についても議論しました。効果量の解釈は、常にその研究分野の文脈や、結果が持つ現実世界での重要性と照らし合わせて行われるべきであり、そこに分析者の深い洞察が求められるのです。大きな効果量が必ずしも実質的な意味を持つとは限らず、逆に小さな効果量が極めて重要な示唆を持つこともあります。

最後に、Rという具体的なツールを用いて、これらの理論を実践に移す方法を学びました。理論的な理解が、ソフトウェアの機能を正しく、そして自信を持って使いこなすための礎となることを確認できたはずです。

この旅を終えた今、私たちはp値と効果量が敵対するものではなく、むしろ補完し合うパートナーであるという結論にたどり着きます 17。p値は帰無仮説に対するデータの証拠の強さを評価するのに役立ち、効果量は発見された現象のマグニチュード、すなわちその重要性を評価するのに役立ちます。両方を併せて報告し、解釈することで、私たちのデータ分析はより完全で、より誠実なものとなります。

この教科書が、皆さんの今後の研究や実務において、データをより深く、より意味のある形で読み解くための一助となることを心から願っています。統計的な有意性という一点だけで結論を急ぐのではなく、効果の大きさという、もう一つの重要な「ものさし」を手にすることで、皆さんの分析はより説得力を持ち、科学と社会に対して、より価値のある貢献を果たすことができるでしょう。

参考文献

この記事で解説した内容は、主に以下の画期的な著作や声明に基づいています。これらの文献は、効果量の概念を理解し、現代の統計的実践におけるその重要性を位置づける上で、不可欠なものです。

中心的な参考文献は、心理学者ジェイコブ・コーエンが著した『行動科学のための統計的検出力分析(Statistical Power Analysis for the Behavioral Sciences)』、特に1988年に出版された第2版です 41。この著作は、統計的検出力と効果量の概念を体系的に整理し、研究者が自身の研究を計画・評価するための具体的なツールを提供したという点で、画期的なものでした。本記事で紹介したCohenのdの基本的な考え方、解釈の基準、そしてその背後にある哲学の多くは、このコーエンの著作に源流を持ちます。


Statistical Power Analysis for the Behavioral Sciences (English Edition)

もう一つの重要な拠り所は、2016年に米国統計協会(ASA)が発表した「統計的有意性とp値に関する声明(Statement on Statistical Significance and P-Values)」です 4。この声明は、科学界に蔓延するp値の誤用と誤解に警鐘を鳴らし、効果量や信頼区間といった他の指標を重視する、より健全な統計的実践への移行を強く促しました。この声明は、なぜ効果量を学ぶことが現代の研究者にとって「任意」ではなく「必須」であるのかを、権威ある形で裏付けています。

その他、本記事で紹介した具体的な計算方法や解釈の注意点、R言語による実践例については、これらの基礎的な文献の考え方を敷衍した、近年の解説論文や書籍、そしてRのパッケージ開発者による技術文書などを参照しています 13。これらの資料は、抽象的な理論と具体的な分析実践との間の橋渡しをする上で、非常に有益な情報を提供してくれました。

参照情報

  1. 効果量とは何か #Python - Qiita, https://qiita.com/fhiyo/items/9cb2b05b36566ffe0eff
  2. The American Statistical Association (ASA) Statement of 2016 on Statistical Significance and P-value: A Critical Thought - ResearchGate, https://www.researchgate.net/publication/316193125_The_American_Statistical_Association_ASA_Statement_of_2016_on_Statistical_Significance_and_P-value_A_Critical_Thought
  3. サンプルサイズの計算で使われる『効果量』とは - DataStreet, https://statistical.jp/effective_size/
  4. Understanding Significance and P-Values - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC4850233/
  5. 統計的有意差(p値)を巡る最近の論争: Moving to a World Beyond “p < 0.05” - Stat Math Lab, Keio University, https://stat.math.keio.ac.jp/wp-content/uploads/2015/02/HDS_%E7%99%BA%E8%A1%A8%E7%94%A8.pdf
  6. American Statistical Association Releases Statement on Statistical Significance and P-Values, https://www.amstat.org/asa/files/pdfs/p-valuestatement.pdf
  7. 知っておくべきP値の問題点 - 臨床ニュース | m3.com, https://www.m3.com/clinical/news/1091611
  8. P値の問題点とは?不要論もある統計検定に対してアメリカ統計協会の声明が指摘していること, https://best-biostatistics.com/summary/pvalue-problem.html
  9. 必要サンプルサイズを計算する理由 - 深KOKYU, https://haru-reha.com/sample-size-reason/
  10. P値5%以下であれば有意と判断していいの?|分析屋 - note, https://note.com/bunsekiya_tech/n/n4bdb63d6ad7c
  11. 効果量とは何か?| 統計学 - Physiotutors, https://www.physiotutors.com/ja/wiki/effect-size/
  12. 「サンプルサイズが大きすぎると良くない」ってどういうこと?|nekoumei - note, https://note.com/nekoumei/n/n3dd00fd25202
  13. 効果量とは何か:「差の大きさ」を評価する指標 | ビジネスリサーチ ..., https://www.business-research-lab.com/230421-2/
  14. ASA Continues Dialogue on Significance, P-Values with New Scientific Symposium on Statistical Inference MEDIA ADVISORY, https://www.amstat.org/asa/files/pdfs/pressreleases/2017-ASA-Continues-Dialogue-SSSI.pdf
  15. 統計的有意性と P 値に関する ASA 声明 - 日本計量生物学会, https://www.biometrics.gr.jp/news/all/ASA.pdf
  16. The American Statistical Association statement on P-values explained - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC5187603/
  17. 効果量 - エミュイン - Emuyn, https://www.emuyn.net/stats/manual/effect_size
  18. 効果量とは?サンプルサイズ設計を実務で使うには - 青の統計学, 効果量とは?サンプルサイズ設計を実務で使うには
  19. www.jspt.or.jp, 効果量 effect size - 一般社団法人 日本理学療法学会連合
  20. 【徹底解説】効果量とは - Staat, https://corvus-window.com/whats_effect-size/
  21. Cohen のdをどう使うか?(専修大学人間科学部教授:大久保街亜) #その心理学ホント?, https://www.note.kanekoshobo.co.jp/n/n522f644f8abc
  22. 統計的推測のその先へ:効果量の計算と実践, https://best-biostatistics.com/toukei-er/entry/beyond-statistical-inference-effect-size-calculation-and-practice/
  23. コーエンのdとは?効果量の考え方と統計的有意差の違いを解説 - DataStreet, https://statistical.jp/wn3/
  24. 効果量,Cohen's d,検出力,検出限界 - 奥村研究室, https://okumuralab.org/~okumura/stat/effectsize.html
  25. 独立したサンプルのt検定の効果量, https://www.stats-guild.com/analytics/18512
  26. Cohen's d - R, https://search.r-project.org/CRAN/refmans/misty/help/cohens.d.html
  27. 13.8: Effect Size - Statistics LibreTexts, https://stats.libretexts.org/Bookshelves/Applied_Statistics/Learning_Statistics_with_R_-_A_tutorial_for_Psychology_Students_and_other_Beginners_(Navarro)/13%3A_Comparing_Two_Means/13.08%3A_Effect_Size
  28. Compute Cohen's d Measure of Effect Size — cohens_d • rstatix, https://rpkgs.datanovia.com/rstatix/reference/cohens_d.html
  29. R Handbook: Paired t-test - R Companion, https://rcompanion.org/handbook/I_04.html
  30. cohen.d function - RDocumentation, https://www.rdocumentation.org/packages/effsize/versions/0.8.1/topics/cohen.d
  31. 効果量と検定力分析入門 ―統計的検定を正しく使うために, https://www.mizumot.com/method/mizumoto-takeuchi.pdf
  32. 心理学における効果量の活用とその具体例, https://fuksi-kagk-u.repo.nii.ac.jp/record/3325/files/GD20203001.pdf
  33. 統計検定手法の改革...その3: 効果量, 信頼区間 | Jun Nishii - 生体情報システム研究室, https://bcl.sci.yamaguchi-u.ac.jp/~jun/post/160605-effectsize/
  34. How to Calculate Cohen's d in R - GeeksforGeeks, https://www.geeksforgeeks.org/r-machine-learning/how-to-calculate-cohens-d-in-r/
  35. R - Cohen's D as effect size for one sample t test - YouTube, https://www.youtube.com/watch?v=ag13gAu-WMA
  36. Estimate Cohen's d for effect size - Stack Overflow, https://stackoverflow.com/questions/15436702/estimate-cohens-d-for-effect-size
  37. Cohen's d - R, https://search.r-project.org/CRAN/refmans/lsr/html/cohensD.html
  38. cohensD: Cohen's d in lsr: Companion to "Learning Statistics with R" - rdrr.io, https://rdrr.io/cran/lsr/man/cohensD.html
  39. Compute cohensd for several vectors at once - Stack Overflow, https://stackoverflow.com/questions/71843712/compute-cohensd-for-several-vectors-at-once
  40. lsr source: R/cohensD.R - rdrr.io, https://rdrr.io/cran/lsr/src/R/cohensD.R
  41. Statistical Power Analysis for the Behavioral Sciences by Jacob Cohen - Goodreads, https://www.goodreads.com/book/show/1430544.Statistical_Power_Analysis_for_the_Behavioral_Sciences
  42. Statistical Power Analysis for the Behavioral Sciences - NIH Library Collection Search, https://onesearch.nihlibrary.ors.nih.gov/discovery/fulldisplay/cdi_askewsholts_vlebooks_9781134742776/01NIH_INST:NIH
  43. Statistical Power Analysis for the Behavioral Sciences | Jacob Cohen | - Taylor & Francis eBooks, https://www.taylorfrancis.com/books/mono/10.4324/9780203771587/statistical-power-analysis-behavioral-sciences-jacob-cohen
  44. Statistical Power Analysis for the Behavioral Sciences - 2nd Edition - - Routledge, https://www.routledge.com/Statistical-Power-Analysis-for-the-Behavioral-Sciences/Cohen/p/book/9780805802832

-統計学

© 2025 RWE