Table of Contents
記述統計学と推計統計学
統計とはそもそも何のためにあるのかと考えたときに、記述するか分析するかの大きく二つに分かれます。
記述統計学と推計統計学などと呼ばれますね。
平易な言葉で言うなら、「現状や過去をきちんと記述するのが記述統計」で、「記述された状況をもとに、今までわからなかったことや、これからの未来を推計するのが推計統計」でしょうか。
誤解を恐れずに表現するなら、記述統計で足元を固めたのちに、推計統計で予測や推量のような離れ業に挑戦するというところですね。
では記述統計とは何なのか。
データをただ羅列するだけでは統計とは言い難い。
膨大なデータや情報を咀嚼し、要点をかいつまんで圧縮することで、メッセージを抽出できるという感覚ですね。
「要するに何なの?」という問いに回答するための技術の一つが、記述統計ということです。
記述統計の要ー要約統計量
「要するに何なの?」への回答方法はいくつかあります。
情報を圧縮して一言で伝えるか、視覚的にまとめて伝えるか、ですね。
前者が要約統計量、後者が図表という形で、記述統計学の中で出てきます。
今回は要約統計量について見てみましょう。
代表値
平均値
平均値は日常生活でもよく目にしますし、直感的にわかりやすいので、少し意識してみると身の回りにあふれています。
ただし、日常的に使われている平均値は、算術平均です。
平均値には、厳密には4つの種類があります。算術平均、幾何平均、調和平均、調整平均です。
算術平均
「相加平均」とも呼ばれます。「数値の合計÷データの個数」で計算されますね。
幾何平均
n個のデータ(数値)の積のn乗根で計算されます。n乗根の中身がマイナスの値だと虚数になってしまうので、データは常に正の数でなければなりません。
虚数とか懐かしいですね~。複素数平面と三角関数の関係に感動したものです。
調和平均
n個のデータ(数値)の算術平均を逆数(その数値を分母にした分数)にしたものです。
例えば、1と2と3の算術平均は (1+2+3) ÷ 3 = 2 ですが、1と2と3の調和平均は 3 ÷ (1/1 + 1/2 + 1/3) = 3 ÷ (11/6) = 18/11 です。
なんでそんな複雑な計算、というより直感的でない計算をするんだとつっこみたくなりますね。
ですが、実は調和平均がぴったりな場面があり、それが平均速度の計算です。
往路を時速80km、復路を時速120kmで走ったとき、その平均速度は時速何kmでしょうか?
当然ながら (80+120) ÷ 2 = 100km/h という計算は誤りで、正しい計算は 2 ÷ (1/80 + 1/120) = 2 ÷ (5/240) = 480/5 = 96 km/h となります。
よくわからないという場合には、2地点間の距離を L km と過程して計算してみてください。
調整平均
「トリム平均」とも呼ばれます。
その由来は、両側の一定の割合分のデータを取り除いたうえで算術平均を出すという計算を行うためです。
端っこをトリミングした平均ということですね。
お察しの通り、外れ値の影響を軽減するための計算です。
上から5%、下から5%をそれぞれ取り除いた場合、全体からは合計10%分のデータが除かれて算術平均が計算されるわけですが、その場合は「5%調整平均」と呼ばれます。
中央値
データを小さい順から並べて、ちょうど真ん中にあたるデータの数値を中央値(メディアン)と呼びます。
データが偶数個の場合は、ちょうど真ん中は存在しないので、”ちょうど真ん中”の前後にあたる2つの数値の算術平均を計算して中央値とします。
中央値の値が重要になってくるのは、データの分布が偏っているような状況です。
所得の分布などがよく事例として挙げられていますが、上位数パーセントがとんでもない金額の所得を計上している(年間うん億円~青天井)一方で、多くの人は年間数百万の所得という状況なので、所得の平均値が少数の高額所得者によって高めに出てしまうということになります。
そうした状況では、「大多数の人の年間所得はどんなものか」を計算するためには、平均値ではなくて中央値の方が適することになります。
あるいは、柔道の段位について、「大多数の人の段位はどの程度か」を計算するためにも、平均値ではなくて中央値の方が適していると考えられます。
その理由は、柔道のような段位の場合、初段から二段に上がるのと、五段から六段に上がる際の「難易度」や「違い」が均等でない可能性があるからです。
最頻値
データの数値の分布をみて、山が一つしかないような形の場合に、山のてっぺんに当たる値を最頻値と言います。
最頻値とはその名の通り最もよくあらわれるデータの値、「よく目にする値」ですね。
分布をみて山が複数ある場合には、どちらが最頻値か迷ってしまうことがあるので、そうした場合には最頻値は向いておらず、中央値にしておいた方が無難でしょうね。
順序統計量
最大値、最小値
これは説明不要でしょう。データをすべて見たときに、一番大きな値が最大値、一番小さな値が最小値です。
パーセンタイル、四分位
○○パーセンタイル
データを小さい順に並べていったときに、小さい方から数えてX%の位置にある値をパーセンタイルと呼びます。
例えば、20個のデータがあったときの25パーセンタイルの値は、20×25%=5 なので、小さいほうから数えて5番目の値を指します。
では、19個のデータがあったときの25パーセンタイルの値はどうなるでしょう。19×25%=4.75 ですが、4.75番目の値というものは存在しません。
とはいえ、20個のデータのときは5番目だったので、そのあたりの値になりそうな気がしますね。
こういうときは視覚的に考えてみるとうまくいきます。
真ん中に位置する50パーセンタイルの値は、19個のデータの真ん中である10番目の値ですね。
そうすると、その前後の9個ずつのデータに分かれます。この9個のデータの真ん中に位置するのが25パーセンタイルですから、その真ん中である5番目の値が該当します。
四分位
四分位は、パーセンタイルのうちよく要約統計量として使われている「25パーセンタイル」「50パーセンタイル」「75パーセンタイル」につけられている名称です。
-
-
- 25パーセンタイル→第1四分位
- 50パーセンタイル→第2四分位
- 75パーセンタイル→第3四分位
-
散布度
平均偏差
偏差
個々の数値と平均値との差を偏差と呼びます。
平均偏差
平均からの偏差の絶対値の平均を標準偏差といいます。
散らばりの平均を「距離」として表した計算した数値ですね。
分散
分散
平均からの偏差の2乗の平均を分散といいます。
大多数の人にとっては「なんのこっちゃ」でしょう。
単位がもともとの変数の2乗となっており、平均値や標準偏差とは単位の次元が異なるという点もわかりにくさを助長しています。
ですが、いざ計算を行う場合に数式としては扱いやすい変数のため、目にすることは多いでしょう。
不偏分散
不偏分散
無限母集団における母分散を偏りなく推定するときに使われる統計量になります。
「不偏分散は標本数から1引いた値(n-1)で割る」というところだけ覚えておけば、現状としては十分でしょう。