確率モデルとは、ある現象が起こる確率を数学的に表現したものです。
確率モデルは、確率変数と呼ばれる数学的な表現を用いて、ある現象がどのような確率で起こるかを表します。
例えば、サイコロを振った場合、1から6までの目が出る確率は1/6です。
このように、確率モデルは、ある現象がどのような確率で起こるかを数学的に表現することができます。
Table of Contents
確率モデルの種類
確率モデルには、様々な種類があります。
代表的なモデルとして、ベイズモデルやマルコフモデルなどがあります。
これらのモデルは、それぞれ異なる数学的手法を用いて確率を表現します。
その他、一般化線形モデル、階層ベイズモデル、混合分布モデル、マルコフ連鎖モンテカルロ法などがあります。
一般化線形モデル
一般化線形モデルは、正規分布以外の確率分布も利用できるように一般化したものです。
一般化線形モデルは、線形予測子と呼ばれるものを用いて、目的変数を説明するために使用されます。一般化線形モデルには、ロジスティック回帰モデル、ポアソン回帰モデル、ガンマ回帰モデルなどがあります。
端的に言えば、「一般化線形モデルは、応答変数が正規分布に従わない場合にも適用できる」という強みがあります。
一般化線形モデルは、以下の3つの要素から構成されます。
- 線形予測子
- リンク関数
- 分布族
線形予測子は、説明変数の線形結合で表されます。リンク関数は、線形予測子と応答変数の関係を表す関数です。分布族は、応答変数の確率分布を表します。
例えば、二項分布を持つ二値応答変数を持つ場合、ロジットリンク関数を使用して一般化線形モデルを構築することができます。
ロジスティック回帰モデル
ロジスティック回帰モデルは、目的変数が二値である場合に使用されます。例えば、ある商品を購入するか否か、ある人が病気にかかっているか否かなどが二値の例です。
ロジスティック回帰モデルは、目的変数が二値である場合に適用される一般化線形モデルの一つであり、ロジスティック分布を仮定しています。ロジスティック分布は、二値の確率をモデル化するためによく用いられます。
ポアソン回帰モデル
ポアソン回帰モデルは、目的変数がカウントデータである場合に使用されます。例えば、ある期間内に発生する交通事故の件数や、ある地域の一日の降水量などがカウントデータの例です。
ポアソン回帰モデルは、目的変数がカウントデータである場合に適用される一般化線形モデルの一つであり、ポアソン分布を仮定しています。ポアソン分布は、カウントデータをモデル化するためによく用いられます。
ガンマ回帰モデル
ガンマ回帰モデルは、目的変数が正の連続値である場合に使用されます。例えば、ある商品の売上高や、ある地域の一日の平均気温などが正の連続値の例です。
ガンマ回帰モデルは、目的変数が正の連続値である場合に適用される一般化線形モデルの一つであり、ガンマ分布を仮定しています。ガンマ分布は、正の連続値をモデル化するためによく用いられます。
階層ベイズモデル
階層ベイズモデルは、複数のレベルで記述された、階層形式の統計モデルであり、ベイズ法を用いて事後分布のパラメータを推定するものです。
サブモデルを組み合わせて階層的なモデルを形成し、ベイズの定理を用いて観測データと統合して、全てのパラメータの事後分布を求めることができます。
階層ベイズモデルは、一般化線形混合モデルをベイズ化したものです。
- https://ja.wikipedia.org/wiki/%E3%83%99%E3%82%A4%E3%82%BA%E9%9A%8E%E5%B1%A4%E3%83%A2%E3%83%87%E3%83%AB
- https://toukei-lab.com/%e7%b5%b1%e8%a8%88%e3%83%a2%e3%83%87%e3%83%ab
- https://www.bigdata-navi.com/aidrops/2925/
- https://qiita.com/aoki-h/items/b8281823146b0e6c3ac2
- https://www.nico-soda.jp/blog/post/20210121_000094.html
混合分布モデル
混合分布モデルとは、複数の確率分布を組み合わせた確率分布のことです。例えば、あるデータが正規分布に従う場合と、別のデータがポアソン分布に従う場合など、異なる確率分布を混合して表現することができます。
混合分布モデルは、機械学習や統計解析などの分野でよく利用されています。
混合分布モデルの応用例としては、データのクラスタリングに使われることがあります。
例えば、混合ガウス分布は、複数の正規分布を混ぜ合わせた確率分布であり、クラスタリングに利用されることがあります。
また、混合ポアソン分布は、複数のポアソン分布を混ぜ合わせた確率分布であり、画像処理などに利用されることがあります。
- https://mathwords.net/gmm
- https://aizine.ai/gaussian-mixture-model0627/
- https://home.hiroshima-u.ac.jp/tkurita/lecture/statimage/node36.html
- https://qiita.com/panda531/items/da283a5fee7e58c4cdc6
- https://ja.wikipedia.org/wiki/%E6%B7%B7%E5%90%88%E3%83%A2%E3%83%87%E3%83%AB
- https://learning-with-machine.hatenablog.com/entry/2020/08/27/190000
- https://www.stats-guild.com/analytics/15846
マルコフ連鎖モンテカルロ法
マルコフ連鎖モンテカルロ法(MCMC)は、ベイズ推定において、事後分布を求めるのが計算上余りにも困難な場合に用いられます。事前分布と尤度分布を材料として乱数を無作為抽出することで、事後分布を概算する方法のことです。
MCMCは、確率分布のサンプリングを行うためのアルゴリズムの総称です。マルコフ連鎖を作成することによって確率分布のサンプリングを行います。
- https://www.headboost.jp/markov-chain-montecarlo/ https://ja.wikipedia.org/wiki/%E3%83%9E%E3%83%AB%E3%82%B3%E3%83%95%E9%80%A3%E9%8E%96%E3%83%A2%E3%83%B3%E3%83%86%E3%82%AB%E3%83%AB%E3%83%AD%E6%B3%95
- https://www.beginner-blogger.com/markov-chain/
- https://qiita.com/Fumio-eisan/items/d1089b08371992e106f2
- https://dreamer-uma.com/mc/
- https://www.weblio.jp/content/%E7%A2%BA%E7%8E%87%E3%83%A2%E3%83%87%E3%83%AB
- https://ja.wikipedia.org/wiki/%E7%A2%BA%E7%8E%87
- https://ja.wikipedia.org/wiki/%E7%A2%BA%E7%8E%87%E9%81%8E%E7%A8%8B
- https://www.weblio.jp/content/%E7%A2%BA%E7%8E%87%E9%81%8E%E7%A8%8B
- https://toukei.link/basicprobability/probabilityandstatistics/
- https://www.bigdata-navi.com/aidrops/2925/
- https://engineeeer.com/probabilistic-model/
- https://ja.wikipedia.org/wiki/%E7%A2%BA%E7%8E%87%E5%88%86%E5%B8%83
生成モデルと識別モデル
確率モデルは、変数xがパラメータθを持つある確率分布 P (x|θ) から生成されていると仮定したモデルのことを指します。確率モデルには、生成モデルと識別モデルがあります。
生成モデルは、観測されたデータを生成するための確率分布をモデル化することを目的としています。一方、識別モデルは、観測されたデータから目的変数を予測するための条件付き確率分布をモデル化することを目的としています。
例えば、手書き数字の認識において、生成モデルは、手書き数字の画像がどのように生成されるかをモデル化し、そのモデルから新しい手書き数字の画像を生成することができます。一方、識別モデルは、手書き数字の画像からその数字が何であるかを予測することができます。
確率過程とは?
確率過程とは、時間などの条件によって変化する確率変数の数理モデルです。確率過程は、確率変数が時間によって変化する場合に用いられます。
例えば、株価や為替の変動、ブラウン運動などの粒子のランダムな運動を数学的に記述する模型(モデル)として利用されます。
確率過程は、確率変数が時間によって変化する場合に用いられます。例えば、株価や為替の変動、ブラウン運動などの粒子のランダムな運動を数学的に記述する模型(モデル)として利用されます。
- https://ja.wikipedia.org/wiki/%E7%A2%BA%E7%8E%87%E9%81%8E%E7%A8%8B
- http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/empirical_process.pdf
- https://oshiete.goo.ne.jp/qa/3246114.html
- https://ja.wikipedia.org/wiki/%E7%A2%BA%E7%8E%87
確率変数とは?
確率変数とは、ある現象に対して、数学的な値を割り当てることができる変数のことです。
例えば、サイコロを振った場合、出た目を表す変数を考えることができます。
この場合、1から6までの値を取る変数を考えることができます。
離散型確率変数と連続型確率変数
確率変数は、離散型確率変数と連続型確率変数に分類されます。
離散型確率変数
離散型確率変数は、有限個または可算無限個の値しか取らない変数のことです。
例えば、サイコロの目やコインの表裏などが該当します。
離散型確率変数は、確率質量関数によって表されます。確率質量関数は、各事象が発生する確率を表す関数であり、離散型確率変数においては、各事象が発生する確率をその値に対応する確率質量関数の値で表します。
連続型確率変数
連続型確率変数とは、ある区間内のあらゆる値をとりうるような確率変数のことです。例えば、温度や身長などが該当します。
連続型確率変数は、確率密度関数によって表されます。確率密度関数は、各事象が発生する確率を表す関数であり、連続型確率変数においては、各事象が発生する確率をその値に対応する確率密度関数の積分で表します。