人工知能とリアルワールドエビデンスを組み合わせる時にまず連想されるのが、機械学習(マシンラーニング)と自然言語処理(Natural Language Processing, NLP)の2つでしょう。
自然言語処理(NLP)
自然言語処理(NLP)は、非構造化テキストを効果的かつ自動的に処理するために使えます。
リアルワールドデータ(RWD)の中には、日常診療の記録、患者日誌、ソーシャルメディア等の形で、不規則な書かれ方や、用語の統一がなされていないものが多くあります。そのような「不規則、統一されていない」データを非構造化データと呼ぶことがあります。
ICD-10やATCコードのように、用語統一がなされている情報の方が珍しいでしょう。
自然言語処理(NLP)によって、これらの非構造化データを構造化データに翻訳することができ、ひいては解析に使えるようになります。
機械学習
機械学習は、訓練用のデータを使って訓練し、数学モデルを構築させ、その数学モデルによってテスト用のデータをきちんと予測できるか、という目的で行われます。
練習を積ませて自分で法則を構築し、その法則で未知の問題に処理できるか。人間のトレーニングと似ています。
ヘルスケア領域にどう応用するかですが、例えば日々蓄積される活動情報、体温、睡眠時間、症状、受けている治療、罹患している疾患、周辺の気象情報等の情報を蓄積していき、何らかの急性症状が現れる確率を計算する、というものです。
訓練用データが増えることによって数学モデルが随時更新されるような仕組みが構築できれば、どんどん予測精度が高まっていくことが期待できます。
もちろん、そう単純な話ではありませんが、いずれ症状予測アプリのようなものが広く使われるようになるでしょう。