エビデンス全般

生存時間解析

2023年3月22日

生存時間解析は、死亡や故障などの事象が発生するまでの期間を分析する統計学の一分野です。

概要

まずは、生存時間解析の概念と応用例を紹介します。

生存時間解析の目的

生存時間解析がどのような問題に対して有用であるか、その理由とメリットを説明します。

生存時間解析は、統計学の一分野で、ある事象(例えば死や故障)が発生するまでの期間を分析する手法です。この手法は、医学や工学など様々な分野で有用です。

例えば、医学では、治療法や予後因子の効果を評価したり、工学では、機械や部品の信頼性や寿命を推定したりすることができます。

生存時間解析のメリットは、打ち切りデータ(観測期間中に事象が発生しなかったデータ)や危険率(事象が発生する確率)を考慮して分析できることです。

参照

生存分析 - Wikipedia. https://ja.wikipedia.org/wiki/%E7%94%9F%E5%AD%98%E5%88%86%E6%9E%90
生存時間解析結果を読み解くための基礎知識. https://www.jstage.jst.go.jp/article/jsei/29/5/29_313/_article/-char/ja/
カプランマイヤー曲線の理解に重要な生存時間解析をわかりやすく解説! https://best-biostatistics.com/surviv/survival.html

生存時間とは

事象が発生するまでの期間を表す変数です。連続的か離散的かによって扱い方が異なります。

生存時間分析は、ある事象が発生するまでの時間を説明する統計的手法です。例えば、患者の死亡やサービスのユーザーの離脱などが事象にあたります。生存時間は連続的な変数として扱うことも、離散的な変数として扱うこともできます。

連続的な場合は、事象が発生した正確な時刻を記録します。離散的な場合は、事象が発生した期間を記録します²。例えば、月ごとにデータを集める場合は、事象が発生した月を離散的な変数として扱います。

どちらの場合でも、生存関数やハザード関数という概念を用いて分析します。生存関数は、ある時点までに事象が発生しない確率を表します。

ハザード関数は、ある時点で事象が発生する条件付き確率を表します。

生存時間分析入門 | 株式会社ARISE analytics(アライズ アナリティクス). https://www.ariseanalytics.com/activities/report/20211027/
生存時間分析の基礎1(生存時間分析とは・生存時間分析のデータ形式) https://note.com/maxwell/n/nc78c55afe944
生存時間分析の色々なアルゴリズムをまとめてみました - Qiita. https://qiita.com/saltcooky/items/409329485be499a5b270

患者の死亡リスクに影響する因子を探す場合は、生存時間分析の中でもコックス比例ハザードモデルという手法がよく用いられます。

この手法は、死亡という事象に対するハザード比を推定することで、各因子の影響力を評価します²。ハザード比とは、ある因子に曝露された群とそうでない群のハザード関数の比です。

例えば、喫煙者と非喫煙者の死亡リスクを比較する場合は、喫煙者のハザード関数を非喫煙者のハザード関数で割った値がハザード比になります。

コックス比例ハザードモデルでは、以下の仮定が必要です。

  • 比例ハザード仮定:各因子の影響力は時間に依存しない
  • 独立性仮定:各患者間に相関がない
  • 欠測データや打切りデータへの対処:欠測や打切りが無作為に発生していると仮定する

これらの仮定が満たされているかどうかを検討することも重要です。

生存時間解析結果を読み解くための基礎知識. https://www.jstage.jst.go.jp/article/jsei/29/5/29_313/_article/-char/ja/
生存分析の基礎 | みんなの疫学統計教室. https://ekigakutokei-class.com/seizonbunseki/
生存時間分析と生命表. http://www.mis.med.akita-u.ac.jp/~nakamura/LifeTable/RefFld/life-tbl-an_H20.pdf

打ち切りとは

観測期間内に事象が発生しなかった場合や観測が途中で中断された場合など、生存時間が完全に観測されない状況を指す用語です。ここでは、種類や影響について説明します。

右側打ち切り(right censoring):観測期間終了時点で事象が発生していない場合や追跡不能になった場合など、事象発生時点よりも後ろ側から打ち切られることです。

右側打ち切りがあると、生存時間の分布を正確に推定することが困難になります。

しかし、右側打ち切りは無作為に発生していると仮定すれば、生存時間分析の手法で扱うことができます。例えば、コックス比例ハザードモデルでは、右側打ち切りされた個人はその時点までの情報を利用してハザード比を推定します。

生存時間分析 生存関数とハザード関数の関係 - ばいばいバイオ. https://www.kimoton.com/entry/20201001/1601494243
生存時間解析とは何か - 生物統計学を学ぶ大学生のブログ. https://norihirosuzuki.hatenablog.com/entry/2021/11/11/123920
生存時間分析とは - MATLAB & Simulink - MathWorks 日本. https://jp.mathworks.com/help/stats/survival-analysis.html
医学統計の基本シリーズ第5回:Kaplan-Meier曲線を理解する 解説2:生存時間解析の特徴-「打ち切り」 https://pharma-navi.bayer.jp/bayaspirin/imasara/medical-statistics/no5/a2

右側打ち切りが無作為に発生するという仮定の妥当性については、研究の設計やデータの収集方法によって異なります。

例えば、治験では、ランダム化された群間で右側打ち切りの割合が同じであれば、無作為に発生していると考えられます。

しかし、観察研究では、右側打ち切りが無作為でない可能性が高く、その場合はバイアスを調整する必要があります。

生存時間分析 生存関数とハザード関数の関係 - ばいばいバイオ. https://www.kimoton.com/entry/20201001/1601494243
医学統計の基本シリーズ第5回:Kaplan-Meier曲線を理解する 解説2:生存時間解析の特徴-「打ち切り」 https://pharma-navi.bayer.jp/bayaspirin/imasara/medical-statistics/no5/a2 アクセス日時 2023/3/22.
生存時間分析についてまとめてみた - Qiita. https://qiita.com/yukiyamada0824/items/c2bfb2e4eaa25029e11e
生存時間分析の基礎1(生存時間分析とは・生存時間分析のデータ形式) https://note.com/maxwell/n/nc78c55afe944

観察研究では、右側打ち切りが無作為でない可能性が高いということは、例えば、イベントの発生率や危険因子の分布が右側打ち切りされた群とそうでない群で異なるということです。

このような場合、右側打ち切りされたデータを無視すると、バイアスが生じてしまいます。バイアスを調整する方法としては、重み付け法や逆確率重み付け法などがあります。

生存時間分析の基礎1(生存時間分析とは・生存時間分析のデータ形式)https://note.com/maxwell/n/nc78c55afe944
集団を対象とした観察研究におけるバイアス https://cir.nii.ac.jp/crid/1390290699812033920
観察研究. https://www.jstage.jst.go.jp/article/jjsca/36/7/36_676/_pdf/-char/ja

右側打ち切りされた群とそうでない群の特徴に違いがあるかどうかを調べる方法としては、以下のようなものがあります。

  • グループごとに故障個数や平均生存時間などの統計量を計算して比較する
  • グループごとに生存曲線を描いて視覚的に比較する
  • ログランク検定やコックス比例ハザードモデルなどの統計的検定を行って比較する

グループの比較:統計量. https://www.jmp.com/support/help/ja/16.2/jmp/compare-groups-statistics.shtml
生存時間分析の基礎1(生存時間分析とは・生存時間分析のデータ形式) https://note.com/maxwell/n/nc78c55afe944 https://nshi.jp/contents/doc/surv/surv1_v1.pdf

左側打ち切り(left censoring):観測開始時点よりも前に事象が発生した場合や観測開始時点で既に事象が発生している場合など、事象発生時点よりも前側から打ち切られることです。

左側打ち切り(left-censoring)は、観測開始時点より前に起きたイベントについて、イベントが発生する前の生存時間を知ることができないということです。

例えば、ある疾患の発症危険因子を調べる場合、ある日を基準点にして、その前の対象者については病気の発症状況が不明な場合がありますこのような場合には、左側打ち切りとしてデータを扱いましょう。

区間打ち切り(interval censoring):定期的な検査や訪問などでしか観測されず、正確な事象発生時点ではなくその区間しかわからない場合の打ち切りです。

情報のない打ち切り(Non-infomative censoring):打ち切られた個体とそうでない個体の間に特徴的な違いが無く、ランダムに処理する打ち切りです。

情報のある打ち切り(Informative censoring):打ち切られた個体とそうでない個体の間に特徴的な違いがあり、系統的または意図的に処理する打ち切りです。

打ち切りの扱い:打ち切られたデータを無視したり置き換えたりするとバイアスや効率低下を招く可能性がある点に注意が必要です。適切な方法で分析する必要があります。

参照
生存時間解析結果を読み解くための基礎知識. https://www.jstage.jst.go.jp/article/jsei/29/5/29_313/_article/-char/ja/
カプランマイヤー曲線の理解に重要な生存時間解析をわかりやすく解説!|いちばんやさしい、医療統計. https://best-biostatistics.com/surviv/survival.html

-エビデンス全般

© 2024 RWE