エビデンス全般 統計学

Missing At Random (ランダムな欠測)とは

欠測とは

収集されたデータに欠測が生じることはそれほど珍しいことではありません。

欠測データまたは欠測値などとも表現されます。

欠測データは、データ収集の際に、変数に値が入力されないときに発生します。

あえてデータ入力しなかった、データ入力欄に気付かなかった、データを収集しようとしたがうまくデータが得られなかった、など様々です。

データ入力を訓練された人間が行う場合と、その研究で初めてデータ入力する場合(Patient Reported Outcome等)とでも、欠測データの発生リスクは変わってきます。

欠測が規則的に発生してしまっている場合、根本原因を解決しない限り、研究の妥当性に大きな疑問符がついてしまうでしょう。

では、欠測が不規則に発生している場合はどうでしょうか。完全にランダムに発生していると言えるならば、Missing At Random として扱われることがあります。

Missing At Random (MAR) とは

欠測がランダムに発生していることを、欠測はMARである、などと表現することがあります。

その意味とは、ある変数が欠測する確率は、他の観測されている変数の値にのみ依存するということです。

とはいえ、観測される変数の値に依存しなければならない、という意味ではなく、依存するなら観測される値にのみ依存する、という意味です。

整理すると次のようになります。

  1. ある変数が欠測する確率は、他の観測されている変数の値のみから決定される
  2. ある変数が欠測する確率は、欠測している変数の値に全く依存しない

この2番目が重要です。MARを別の角度から表現するなら「MARとは、欠測するかどうかが、どの欠測値にも依存しないこと」とも言えます。

分析対象データとMAR(部分集合に注意)

MARの概念は、一定の変数の集合 {y1, y2, ..., yi} とセットで成り立つという点に注意が必要です。

MARは、欠測の原因となる観測変数が分析に含まれている、ということも意味します。

そのため、欠測の原因となる変数が分析に含まれないとMARが成り立ちません。

例えば、 {y1, y2, y3} という3種類の変数があったとします。もう少しイメージを沸かせたい際には、次のように想像してみてください。

  • 調査対象は、100名の中学生。y1, y2, yは、それぞれ、身長(連続変数)、体重(連続変数)、所属している部活(カテゴリ変数)。

この {y1, y2, y3} の集合において、y1とy2が欠測するかどうかがy3にのみ依存しているとします。

この時、 {y1, y2, y3} の集合全体として見れば、y1とy2の欠測はMARです。

ところが、{y1, y2} の部分集合で見た場合、欠測の原因であるy3 が含まれていないのでMARとなりません。

MARという言葉を目にしたら、変数の集合 {y1, y2, ..., yi} は何なのかを確認するとよいかもしれません。

-エビデンス全般, 統計学

© 2021 Real-World Data/Evidence website