基礎から学ぶ統計学のメモ
序章
-
統計学とは?
- 散らばりを示すデータから、適切な推論を導くための道具が、統計学です。
- 気まぐれで散らばった数値との付き合い方を教えてくれるのが、統計学です。
- 数学者たちは、散らばりを見せる数値の背後に、美しい数理があることを発見してきました。その知識体系が「統計学」です。
- 数が限られた観測値からなる標本を使い、母集団に対して、推論を行う学問です。
-
観測値(observation): 観測された数値。散らばる数値
- 散らばる数値は、確率変数である
- 確率変数(random variable): 取りうる値の全てに、予め確率が定められている数値(変数)。しかし、実際の実験や検査では、事前の予測が不可能な、完全に気まぐれにしか見えない数値(変数)
- どんな値が得られるのかが偶然に左右され、事前に予測するのが不可能な数値
- 確率変数は確率分布(probability distribution)に従う
- 確率分布の役割: 確率変数が取りうる数値の全てに対して、その数値が起こる確率を割り当てる
- 標本(sample): 観測値の集合
- 母集団(population): 興味の対象となる要素(個体)の集団全体
- 単純無作為標本(simple random sampling): 母集団を構成する各要素が、等しい確率で、完全に偶然に任せた形で標本に選ばれる
-
基礎から学ぶ統計学の学習目標
- 平均の比較
-
統計的仮説検定/仮説検定/検定
- 独立2群のt検定
- 一元配置分散分析
- 多重比較
- 2変数の関係
- 相関
- 相関分析
- 回帰直線
- 単回帰分析
-
検定統計量
- 「差があるのか?それとも差があると言えないのか?」を判断するための数値
- 「差があることに対する確信の強さを示す数値」
1章: 検定の論理
-
二項検定: 最も使用頻度が低い手法だが、統計学の入門に最適な学習項目
- 検定では「帰無仮説と対立仮説は、実験や調査で得た結果の説明として、どちらが妥当な判断か?」という問題を考える。
- 実験や調査で得た結果は、起こりやすい結果だったか?それとも起こりにくい結果だったか?を調べる
- 手順: 全部で5つのステップからなり、すべての検定で共通する手順
-
STEP1: 帰無仮説と対立仮説
- 帰無仮説(null hypothesis):
- 比べるもの同士が等しいと仮説を立てる
- 対立仮説(alternative hypothesis): 帰無仮説と正反対の内容(もしくは否定の内容)
- 比べるもの同士が等しくないと仮説を立てる
-
STEP2: 検定統計量: 実験や調査で得た結果を使って検定統計量と呼ばれる数値を計算する。
- 差があるのか?それとも、差はないのか?という疑問に対し、最終的な判断を下すための数値
- STEP3: 帰無分布: 帰無仮説が正しいとしたときに、検定統計量が従う分布
-
STEP4: 棄却域と有意水準
- 帰無分布に棄却域と呼ばれる領域を作る。
-
棄却域のルール
- 棄却域は、帰無仮説の予想から離れた、帰無分布の端っこに設定する
- 棄却域の確率の合計を5%か1%に設定する
- 両側検定: 帰無分布の両側に棄却域を作る方法
- 有意水準: 棄却域の確率の合計。記号はαが使われる
-
確率分布が離散型な場合、正確に5%ピッタリになる棄却域が設定できません。
- 左右の棄却域が2.5%未満の最大値となるように、キリのよい区切りを探し、棄却域を作る
-
STEP5: 有意差の有無の判断
- 検定統計量が棄却域に入ったとき、「帰無仮説を棄却し、おそらく、対立仮説の方が適切だろうと判断する。
- 統計的に有意な差: 有意差とも。
- 統計的に有意な: 差があるとした判断は、統計学の立場からは、おそらく妥当だろう
- 表現:
-
統計的に有意な差が認められた場合
- AとBの有効率に統計的に有意な差が認められた(P<0.05)
- Bの有効率はAの有効率より統計的に有意に高かった(P<0.05)
-
統計的に有意な差が認められなかった場合
- AとBの有効率に統計的に有意な差が認められなかった
-
二項分布(binomial distribution): P(X=x) = nCx * p^x * (1 - p) ^ (n-x)
- 離散型分布: 二項分布のように、グラフにすると階段状の形状を示す確率分布
- 二項係数(binomial coefficient): 組み合わせ。nCx = n! / {x! * (n - x)!}
- 応用例
- コイン投げ
- 街頭調査
- 薬の効果
- …等
-
期待値: 確率分布を特徴づける、重要な数値の一つ
- 平均とも呼ばれる
- E[X] = x1p1 + x2p2 + ・・・ + xnpn
- 加重平均: 重み付けした平均
2章: 検定統計量 Wilcoxon-Mann-Whitney検定を教材にして
-
目的
- 作業の流れに慣れる
- 実験や調査で得た結果から、検定統計量Uを計算する
- 数表から検定統計量の臨界値U0.05を見つける
- 2つの数値、Uと0.05の大小の比較から、有意差の有無を判断する
-
Wilcoxon-Mann-Whitney検定(WMW検定): 下記の2つの手法の総称
- Mann-WhitneyのU検定と呼ばれる手法
- Wilcoxonの順位和検定と呼ばれる手法
-
2つの標本(標本A/標本B)とそれに対応する2つの母集団(母集団A/母集団B)について考える
- 2つの母集団は、同一の何らかの確率分布に従っている
- それぞれの標本内の観測値は、対応する母集団から単純無作為標本であると仮定する
- 2つの可能性: WMW検定の目的は、「2つの可能性のうち、実験や調査の結果として、下記のどちらがより妥当か?」を判断することにある。
- 2つの母集団は同一の確率分布に従う
- 2つの母集団が従う確率分布は、異なっている
-
検定統計量(test statixtic): 「差がありそうか?」もしくは「差がなさそうか?」を判定するための数値
- 検定統計量Uは、2つの母集団が同じ確率分布に従うとき、大きな数値になる性質がある。
- 検定統計量Uは、2つの母集団が異なる確率分布に従うとき、ゼロに近い小さな数値になる性質がある。
-
WMW検定の帰無仮説と対立仮説
- 帰無仮説: 母集団Aと母集団Bは同じ確率分布に従う
- 対立仮説: 母集団Aと母集団Bは異なる確率分布に従う
-
WMW検定の手順
- 1: 実験や調査の結果から、検定統計量Uを計算する
-
Uの候補として、U1を計算する
- 標本Aと標本Bを観測値の低い順にまとめて並べる。
- 標本A内のすべての観測値に対して、その観測値よりも大きな観測値をもつ標本Bの観測値の数を数える。
- 上記の数の総和をU1とする
-
Uの候補として、U2を計算する
- 標本Aと標本Bを観測値の低い順にまとめて並べる。
- 標本B内のすべての観測値に対して、その観測値よりも大きな観測値をもつ標本Aの観測値の数を数える。
- 上記の数の総和をU2とする
- U1とU2のうち、より小さい値をUとする
- 2: 数表で、検定統計量Uの臨界値U0.05を見つける
- WMW検定の数表で、n1=標本Aの標本サイズ、n2=標本Bの標本サイズに該当する数値を読み取り、臨界値とする。
- 臨界値: 検定統計量Uの帰無分布において棄却域が始まる値のこと
- 3: もしデータから計算したUが、臨界値U0.05以下であれば「有意差があった(P<0.05)」と結論する
-
ノンパラメトリック統計:
- 母集団がどんな確率分布に従おうと、使える手法
- WMW検定は、得られた観測値の順位だけを考察の対象にする
-
検定統計量Uの特徴
- 完全に分離したときに最低値の0となる
- 完全に混合したときに最高値に近くなる。
- 混合が進むにつれて大きくなる
-
順位和を使った検定統計量Uを求める
- 標本Aの順位和: 標本A/標本Bの観測値を並べて順位をふり、標本Aに割り振られた順位の合計値
- 標本Bの順位和: 標本A/標本Bの観測値を並べて順位をふり、標本Bに割り振られた順位の合計値
- U1 = {標本Aの標本サイズ} * {標本Bの標本サイズ} + {標本Aの標本サイズ} * ({標本Aの標本サイズ} + 1) / 2 - {標本Aの順位和}
- U2 = {標本Aの標本サイズ} * {標本Bの標本サイズ} + {標本Bの標本サイズ} * ({標本Bの標本サイズ} + 1) / 2 - {標本Bの順位和}
-
タイ(等しい値)がある場合のUの計算
- タイになっている数値の順位を算術平均した順位を採用する
3章: 第1種の過誤と第2種の過誤
-
第1種の過誤: 帰無仮説「比べるもの同士が等しい」が正しいにも関わらず、「有意差がある(P < 0.05)」と誤った結論を下すこと
- 第1種の誤り / タイプ・ワン・エラー / アルファ・エラー
- 帰無仮説「比べるもの同士が等しい」が正しくても、α=5%の確率で「有意差あり」と判断する間違いが起こるということを認識しておく必要がある。
- 有意差ありの意味
-
検定を行い「有意差あり」と判断したときには、2つの可能性がある
- 正しく判断できた
- 第1種の過誤を犯した
-
3つの意味
- 私たちは「帰無仮説は間違っている」という判断が妥当だと結論した
- もしかしたら帰無仮説は正しくて、その上で、私たちが誤って、第1種のカゴを犯しただけなのかもしれない。その可能性を100%完全に否定することはできない。
- ただし、もし仮に帰無仮説が正しいとしても、第1種の過誤を犯す確率は5%に過ぎない。
-
第2種の過誤: 帰無仮説「比べるもの同士が等しい」が間違っているにも関わらず、「有意差なし」と誤った結論を下すこと
- 第2種の誤り / タイプ・ツー・エラー / ベータ・エラー
- 有意差なしの意味: 「結局、何もわからなかった」
-
検定を行い「有意差なし」と判断したときには、2つの可能性がある
- 正しく判断できた
- 第2種の過誤を犯した: 本当は差があるのに、その差を見抜けなかった
- 有意差なしは、「帰無仮説の正しさの証明ではない」
4章: 平均・分散・標準偏差・自由度
-
統計量(statistic): 観測値からなる標本からいくつかの計算で得られる数値
- 標本平均
- 標本分散
- 標本標準偏差
- 統計学は、数が限られた観測値からなる標本を使い、母集団に対して適切な推論を行う学問
-
平均:
- 母平均(population mean)
-
表現1: 算術平均: 値の和を母集団サイズで割ったもの
- μで表される
- すべての観測値を使った算術平均
- 実際の実験や調査では決して手に入れることはできない
-
表現2: 期待値: 観測値(確率変数)xの期待値E[x]
- 確率分布に従う母集団から、無作為に1つの観測値を取り出したときの期待値
- 1つの山の左右対称な確率分布の場合、母平均μは「確率分布の中心」もしくは「確率分布の頂点の位置」を教えてくれる
- 標本平均(sample mean)
- 母集団のうち、ごくわずかな少数の、無作為に選ばれた観測値xだけを使った算術平均
- 母平均と正確に一致することは、100%あり得ません。
- 不偏性: 標本平均の期待値は、母平均に一致する。
- 母平均を過大評価することもなく、過小評価することもなく、適切な推定を行う
- 標本平均は「母平均の不偏推定量」と呼ばれる
-
偏差: 母平均を起点とし、観測値を終点としたときの差
- 起点から終点に向けて伸ばした矢印
- 偏差が大きいと観測値の散らばりが大きくなる。
- 偏差が小さいと観測値の散らばりが小さくなる。
- 偏差は、正の値にも、負の値にもなりうる
- 平均偏差: 偏差の絶対値をとり、算術平均を行う
- 統計学ではほとんど使われない。数学者たちが「これを散らばりの指標とすると、統計学の理論を展開できない」と判断したから。
- 分散: 偏差を二乗して算術平均を行う
- 統計学の理論の土台となっている
- 数学者たちが「分散を散らばりの指標にすると、シンプルで美しい理論の体系を構築できる」と、数々の定理を発見を通して、確信し続けたから
- 2乗が行われるため、観測値とは単位が変わってしまう。
- 標準偏差: 分散の平方根
- 2乗によって変化した単位を観測値の単位と揃える。
-
母分散(population variance):
- 偏差平方和(sum of squared deviations): 偏差の二乗を合計した値
- 平方和(sum of squares)
- 母分散(算術平均): 偏差平方和を偏差の数で割った数字
- 母分散(期待値): 偏差の二乗の期待値
- 母標準偏差: 母分散の平方根
- 実験や調査で手に入れられるのは、数が限られた観測値xからなる標本です。この標本を使い、母分散や母標準偏差を推定する必要がある。
-
偏差の定義は「観測値 - 母平均」であるが、標本からは正確な母平均を計算することはできない。
- 母平均の代わりに、標本平均を代役とする。
- 観測値 - 標本平均
- 代役の標本平均で偏差を計算するが、標本平均と母平均が正確に一致することはない。
- 標本平均を使った偏差平方和は、母平均を使った偏差平方和より、小さい数値を算出する傾向にある
- 母分散を過小評価してしまう。
-
自由度(degree of freedom): 標本サイズから1を引いた値。
- dfやDFと表記される。
- 数理統計学の教科書では、νやφと表記される
-
標本分散: 標本平均を起点にした偏差平方和を自由度で割る。
- 自由度を使った標本分散は母分散の不偏推定量となる
- 標本標準偏差: 標本分散の平方根
-
母数: 母集団を特徴づける値。パラメータ
- 母平均
- 母分散
- 母標準偏差
- 母集団サイズNが大きすぎるため、母数の実測は不可能
- 私たちが行う実験や調査では、母数は、常に未知の数値
-
統計量(statistic): 母集団から無作為に取り出された、ごく一部の観測値から作られる標本を使って計算される値
- 標本平均
- 標本分散
- 標本標準偏差
- 実験や調査の結果から、実際に、計算すること可能
- 上記は、母数に対する推定値です。正確に一致することは100%ありません。
- 統計学の多くの手法は「標本から計算した統計量を使い、未知の母数に対して、適切な推論を行う」という作業を原則としている。
-
自由度: 互いに独立に値が決まる変数の数
- 制約条件次第で数が変動する。
- 自由度 = 変数の数 - 制約条件の数
- 標本平均を偏差の起点にしたとき、「偏差の総和はゼロになる」という制約条件が発生する
- 母平均を偏差の起点にしたとき、「偏差の総和はゼロになる」という制約条件は発生しない
5章: 正規分布と統計理論の初歩
-
正規分布(normal distribution): 様々な測定でよく見かけられる、ごく普通の確率分布
- ガウス分布とも呼ばれる
- ベル型、釣り鐘型と呼ばれる
- 連続型分布と呼ばれる
- ド・モアブル-ラプラスの定理: nが大きくなるにつれ、二項分布が正規分布に近づいていく性質
-
連続型の確率分布
- 縦軸は確率密度
- 面積=確率
- 曲線とx軸の間の全面積は1となる。
- 母集団から無作為に取り出した観測値xが、aとbの間にある確率はaとbの面積となる
- 無作為に取り出した観測値xが、ある特定の数値となる確率はゼロ
- 確率密度関数(probability density function): 連続型の確率分布の曲線を記述する関数
-
±σ・±2σ・±3σの範囲: 正規分布であれば、どのようなμやσであろうと下記が成り立つ
- ±σ: 観測値が、「μ - σからμ + σ」の範囲に入る確率は68.3%
- ±2σ: 観測値が、「μ - 2σからμ + 2σ」の範囲に入る確率は95.4%
- ±3σ: 観測値が、「μ - 3σからμ + 3σ」の範囲に入る確率は99.7%
-
標準正規分布: 母平均が0、母標準偏差が1の正規分布
- 標準正規分布表
- いくつかの種類が存在する。
- 累積確率(cumulative probability, cumulative area from the left): 任意のzに対し、z未満(あるいは以下)となる確率(面積)を教えてくれる
-
使い方
- 観測値zを小数点第一位以上と小数点第二位に分解する。
- 数表から上記がクロスする位置の数値を読み出す。
- 臨界値Z0.05: 標準正規分布の両側に2.5%ずつ、合計5%の棄却域を作るzの臨界値は1.96です。
- 標準化: (観測値 - 母平均) / 母標準偏差
-
標本平均が従う確率分布
- 特徴1: 観測値が正規分布に従うなら、その標本平均も正規分布に従う
- 特徴2: 標本平均が従う正規分布の期待値は、母平均のまま、変わらない
- 特徴3: 標本平均が従う正規分布は、観測値が従う正規分布と比べて、分散が1/n倍に、標準偏差は1/√1倍に、幅が狭くなる
- 大数の法則: 標本サイズをドンドン大きくし、無限大に近づけていく過程の極限で、標本平均は母平均に限りなく近づく性質
- 標本分布(sampling distribution): 統計量が従う確率分布
-
標準誤差(standard error): 標本分布の標準偏差。
- 標本分布を特徴づける期待値(平均)と標準偏差
- SEやseと表記される
-
中心局限定理: どんな確率分布から得た標本平均も、標準偏差が1/√n倍に狭まった正規分布に近似的に従う
- 特徴1: 母集団がどのような確率分布に従うにせよ、そこから得た標本平均は、近似的に正規分布N(μ, σ^2/n)に従う。近似の精度は、標本サイズnが大きくなるほど良くなる
- 特徴2: 標本平均が近似的に従う正規分布N(μ, σ^2/n)の期待値(平均)は、母平均μのまま、変わらない
- 特徴3: 標本平均が近似的に従う正規分布N(μ, σ^2/n)は、観測値(確率変数)が従う確率分布と比べて、分散が1/n倍に、標準偏差は1/√n倍に、幅が狭くなる
-
正規分布の再生性: 2つの異なる母集団の観測値の和と差について
- 2つの異なる母集団の観測値について、それぞれの観測値が正規分布に従うなら、その和と差も正規分布に従う
- 正規分布の再生性(reproductive property)
- 和の期待値は、それぞれの母平均の和と等しくなり、差の期待値は、それぞれの母平均の差と等しくなる
- 和の分散と差の分散は、共に、それぞれの母分散の和で与えられる。
6章: t分布と母平均μの95%信頼区間
-
95%信頼区間(95% confidence interval): おそらく、この中に母平均がいるだろうと推測することが可能
- 95% CI
- 95%: 信頼係数のこと「この方法に従った95%信頼区間を計算していると、平均して20回に19回の頻度で、この範囲内に母平均が入る」
-
母標準偏差が既知の場合の95%信頼区間
- 実際はあり得ない。
- 母平均μ,母標準偏差σの正規分布について、この分布に従う母集団から、無作為にn個の観測値xを得たとする
- n個の観測値xから標本平均を算出する
- 標本平均の確率分布の性質より、標準偏差は母標準偏差より1/√n倍小さくなる
- 標準化を行う。
- z = (標本平均 - μ) / (σ / √n)
- 95%の臨界値z0.05を使って下記の不等式が成り立つ
- -z0.05 <= z <= z0.05
- -z0.05 <= (標本平均 - μ) / (σ / √n) <= z0.05
- 標本平均 - z0.05(σ / √n) <= μ <= 標本平均 + z0.05(σ / √n)
-
[下側信頼限界, 上側信頼限界]: 95%信頼区間の表示を、範囲の下限と上限を、閉区間の[下限, 上限]と表記する
- [標本平均 - z0.05(σ / √n), 標本平均 + z0.05(σ / √n)]
- 母標準偏差がわかっている状態はあり得ないため、標本標準偏差sを代用する
- 標本標準偏差は、本当に、母標準偏差の代役になれるのか?
- 数が限られた観測値から算出された標本標準偏差sは散らばりを持ち、母標準偏差の大雑把な推定に過ぎない。
- 母標準偏差の代わりに標本標準偏差を使って標準化すると、zは、もはや、標準正規分布に従わない
- 母標準偏差の代わりに標本標準偏差を使って得たzの分布の、標準正規分布からのズレの大きさは標本サイズnに依存する
- σが既知なら、zが標準正規分布に従う。σが未知なら、Studentのtがt分布に従う
-
t分布の定性的理解
- 定性的な特徴1: t分布は背が低くて幅が広い
-
Student化: 母標準偏差を標本標準偏差で置き換えた標準化
- 標本標準偏差は母標準偏差の大雑把な推定値にすぎない
- 標本標準偏差は、母標準偏差より大きかったり、小さかったりする
- Student化して得たtは、zと比べて、右や左にランダムにずれる
-
特徴
- t分布の定性的な形状は、標準正規分布と似ている。期待値はゼロで、左右対称なベル型の形状をしている
- t分布は、標準正規分布よりも背が低く、左右に幅広い形状をしている
- 定性的な特徴2: t分布は標本サイズnによって形が少しずつ変化する
-
特徴
- t分布の背の高さと左右の広がりは、標本サイズnによって変化する。nが大きいときは、標準正規分布に近づく。nが小さくなると、徐々に背が低くなり、左右に広がっていく。
- t分布を指定するときには、標本サイズではなく自由度を使う。
- 「標本サイズ6, 標本サイズ3, 標本サイズ2のt分布」とは呼ばすに「自由度5, 自由度2, 自由度1のt分布」と呼ぶ
- t分布の母数はたった一つ自由度だけ
- 母標準偏差を推定するうえでの、意味のある偏差の数が、t分布の形状を決める
- t(df)と表記される。
- t分布の臨界値t0.05(df)
-
母標準偏差σが未知の場合の95%信頼区間
- 正規分布に従う母集団から、n個の観測値xを取り出し、標本サイズnの標本を得た。
- 標本平均を算出する。
- 母標準偏差σが未知のため、標準化できない
- 母標準偏差σの代わりに標本標準偏差を使って、Studend化する
- Studend化のtは、標準正規分布には従わない。その代わり、自由度がdf=n-1のt分布に従う
- -t0.05(df)から+t0.05(df)の範囲内に95%の確率でStudentのtは存在する。
-
95%信頼区間の「95%」の意味
- 私たちは「95%の確率で、母平均は、この範囲の中にいるだろう」と考える
- とても素直で、直感的な考え
- 多くの解説書が「絶対に、このように考えてはいけない」と注意を促しています。
- 発端: 1930年、信頼区間の一般的な理論が確立されようとしていた時期
-
「母平均が95%信頼区間の中にいる確率とは?それは一体、何か?」
- 母平均は、未知な数値ではあるが、固定された数値であり、定数と見なすべき数値である。偶然によって値が左右される確率変数ではない。
- 問いかけ: 「95%は確率なのか?もし95%が確率であるならば、それは一体何の確率なんだ?」
- 現在では、「その時々の、1回だけの95%信頼区間の計算結果に対し、母平均がこの区間に入っているか?その確率は?」と考えること自体が、的外れであるとされている
- 95%とは、確率ではなく、「何回も95%信頼区間の計算を行った時の、当たり外れの頻度である。」
- 「母集団から単純無作為標本を得て、95%信頼区間を計算する」という作業を延々と続けることを考える。
- 平均して20回中19回の頻度(95%の頻度)で、95%信頼区間が母平均を含むことが明らかになる。
- 95%とは、この20回中19回の頻度を指している。
- 95%信頼区間を得たとき、「95%の確率で、母平均がこの範囲内の中にいるだろう」と考えてはいけない、書いてもいけない、話してもいけない
7章: 関連2群のt検定
-
t検定には2つの種類がある: 実験や調査の設定によって、この2つを使い分ける必要がある
- 関連2群のt検定: 計算が簡単で、その原理を理解しやすい
- 独立2群のt検定
-
関連2群(対応のあるデータ): 対になる2つの観測値の間の「差」に重要な意味があるデータ。
- 差d = 関連2群の設定で、対応する2つの観測値の差
- 関連2群のt検定では、差を、新たな観測地と見なす。
- 2つの可能性
- 効果はないと考えても、この実験結果は十分に説明できる
- 効果がないと仮定すると、この実験結果を説明するにのは難しい。むしろ、効果があったと判断する方が妥当ではないか?
- t検定は、上記の2つの立場のうち、「どちらが、より妥当な説明か?」を調べる手法です。
-
手法
- 前提条件
- n個の対応する対があるとする。
- n個の差を観測値のペアから計算し、観測値とする。
- 差が正規分布に従うと仮定する
-
正規分布のパラメータ
- 母平均→未知の定数
- 母標準偏差→未知の定数
-
差の標本平均を算出する。
- 差の標本平均は、正規分布N(母平均, 母標準偏差 / √標本サイズ )に従う
- 帰無仮説と対立仮説
- 帰無仮説: 差の期待値(平均)がゼロである
- 対立仮説: 差の期待値(平均)がゼロではない
- 上記の仮説から、「帰無仮説は、実験や調査で得られた結果を妥当に説明するか?」を調べる
- t検定の手順
- 差の標本平均が従う正規分布を用意する
- 帰無仮説が正しいと仮定するので、標本平均は0とする
- 標準化z = 標本平均 / (母標準偏差 / √標本サイズ)
- 標準化したいが、母標準偏差は未知なため、標本標準偏差を代用する
- 標本標準偏差 = √(SUM(観測値 - 標本平均)^2 / (標本サイズ - 1))
- Student化t = 差の標本平均 / (標本標準偏差 / √標本サイズ)
-
Student化tは、帰無仮説が正しいなら、自由度df=n-1のt分布t(n-1)に従います
- 帰無仮説が正しい時、Studentのtは、95%の確率で、-t0.05(n-1)から+t0.05(n-1)の間に入る
- 帰無仮説が正しい時、Studentのtは、5%の確率で、-t0.05(n-1)未満の2.5%か、+t0.05(n-1)より大きい2.5%の、合計5%の両側の領域に入る
- この領域を棄却域という
-
手順
- 対応する2つの観測値の差を計算する
- Studentのtに必要な数値を計算する
- 差の標本平均
- 差の標本標準偏差
- 差の標本サイズ
- 差の標本標準偏差の自由度df
- Studentのtを計算する
- t分布表で、自由度df=n-1と両側確率5%から、臨界値を読み取る
- 結論
- t0.05(df) < |t|が成り立つ: 統計的に有意な差が認められた(P < 0.05)
- t0.05(df) < |t|が成り立たない: 統計的に有意な差は認められなかった
-
検定統計量は、検定において「差があるのか?それとも、差があるとは言えないのか?」を判断するための数値
- 関連2群のt検定の場合、Studentのtの絶対値が大きくなるほど、私たちは「差があるに違いない」と自信を深める
-
Studentのt
- 構成要素
-
差の標本平均の絶対値
- この値が大きくなるほど、Studentのtが大きくなる
- ゼロに近くなる: 「差がある」とは確信できないようになる
- ゼロから遠くなる: 「差があるに違いない」とは確信できるようになる
-
差の標本標準偏差
- この値が小さくなるほど、Studentのtが大きくなる
- 観測値が散らばっていると「差があるのか?ないのか?正直なところ、よく分からない」という状況に陥ります。
- 観測値を観察して、「差があるに違いない」と確信するとき、Studentのtは必ず大きな値を示すように定義されている。
-
標本サイズの平方根
- この値が大きくなるほど、Studentのtが大きくなる
- 標本サイズが小さすぎると「差があるのか?それとも差がないのか?」が全く判断できません。
- 標本サイズが大きくなると「差の有無の判断」に対して明確な判断を下しやすくなる
- 標本サイズが小さくて「とても差があるとは断言できない」という状況で小さな値を示す
- 標本サイズが大きくて「差があるとしか思えない」という状況で大きな値を示す
- 定義式では、「差の有無の判断は、この3つの数値に基づいて決める」と宣言している
8章: 独立2群のt検定
- 「t test」もしくは「Student's t test」と呼ばれる
-
多くの学習者は、この学習項目で、統計学の学習に挫折する
- 検定統計量の計算の意味を理解できないから
- 独立2群: 隣り合う数値の間の対応は、一切ない
-
独立2群のt検定は、2つの標本から得た2つの標本平均の差を考察対象とする。
- 差の背後には二つの確率分布の可能性がある
- 期待値(平均)がゼロである確率分布
- 期待値(平均)がゼロではない確率分布
- 独立2群のt検定では、上記のどちらが妥当かをチェックすることが仕事
-
独立2群のt検定の前提
- 比較する2つの母集団は、ともに、正規分布に従う
- 等分散の仮定: この2つの正規分布は、等しい母標準偏差を持つ
- 等分散の仮定が期待できない場合は、Welch検定を利用する
-
「正規性」や「等分散性」を調べる手法
- 正規性のチェック
- シャピロ-ウィルク検定
- アンダーソン-ダーリング検定
- コルモゴロフ-スミルノフ検定
- 等分散性のチェック
- バーレット検定
- ルビーン検定
-
検定: 帰無仮説は、実験や調査で得た結果を適切に説明するか?
- 帰無仮説: 母平均μAと母平均μBは等しい
- 対立仮説: 母平均μAと母平均μBが等しくない
-
母標準偏差が既知であるケース(非現実的な条件であるが)
- 標本平均の差: 標本平均A - 標本平均B
- 期待値(平均): 母平均μA - 母平均μB
- 標準偏差: 母標準偏差σ / √(1/標本サイズA + 1/標本サイズB)
- 標準化: z = (標本平均の差 - 期待値(平均)) / 標準偏差
- 帰無仮説が正しいと仮定すると、母平均μA = 母平均μBとなり、期待値(平均)はゼロとなる
- z = 標本平均の差 / 標準偏差
- 標準化で得たzは、標準正規分布N(0,1^2)に従う。
- zが棄却域に入るかを確認する
-
母標準偏差が未知であるケース
- 標本平均の計算: SUM(観測値) / 標本サイズ
- 偏差の計算: 観測値 - 標本平均
- 偏差平方和を計算する: SUM(偏差^2)
- 自由度の計算: df = n - 1
- 標本分散の計算: 偏差平方和 / 自由度
- 標本分散は、その期待値が母分散に等しくなる
- 標本標準偏差の計算: 標本分散の平方根
- 上記を2群で実施すると、二つの標本標準偏差を得ることができる。
- 推定量は2つも必要ではない。
- 各標本から得られるたった一つの推定値が欲しい。
- 合算標準偏差(pooled standard diviation)
- 日本語の用語は統一されていない: 併合標準偏差 / 合併標準偏差 / プールされた標準偏差
-
偏差平方和の計算: 標本Aの偏差の2乗と、標本Bの偏差の2乗を足し合わせる。
- Excel: DEVSQを使う
- 関数電卓
- 標本標準偏差を計算する
- 標本標準偏差を二乗して、標本分散にする
- 標本分散に自由度をかける
- 自由度: 各標本の自由度の和
- 合算分散: 偏差平方和 / 自由度
- 合算標準偏差: 合算分散の平方根
- 独立2群のt検定の検定統計量t
- t = 標本平均の差 / (合算標準偏差 * √(1/標本サイズA + 1/標本サイズB))
-
仮定を置く
- 比較する2つの標本の標本サイズが等しい
- 標本Aと標本Bで、標本標準偏差が等しい
-
上記の仮定を利用してシンプル化したStudentのt
- t = (標本平均の差 * √標本サイズ) / (√2 * 標本標準偏差)
9章: P値
-
P値(P-value): 帰無仮説が正しい場合に、実験や調査で得られた差、もしくは、それより大きな差が起こる確率
- 「検定統計量のStudentのtが帰無分布の中の何処にいるか?」は、いろいろな情報を与えてくれる。この情報の一つがP値
- P値の算出方法
- Studentのtを計算する
- Studentのtに-1を乗じた数値を計算する。
- 帰無分布の、「Studentのt」と「Studentのtに-1を乗じた数値」の外側の面積を計算する
- 2つの面積(確率)を合計したものがP値
10章: 一元配置分散分析
-
分散分析(analysis of variance, ANOVA, アノーヴァ)
- 一元配置分散分析
- 一要因分散分析, one-way ANOVA, single factor ANOVA, one factor ANOVA
-
前提条件
- すべての母集団が正規分布に従うこと
- この正規分布の全てが、等しい母分散(もしくは母標標準偏差)を持つこと
-
データが上記の前提条件から逸脱している場合
- Welchの一元配置分散分析: 正規分布を仮定し、等分散を仮定しない
- Kruskal-Wallis検定: ノンパラメトリック統計
-
仮説
- 帰無仮説: すべての母集団が、同一の正規分布に従う
- 対立仮説: 少なくとも一つの標本が、異なる正規分布に従う
-
標本の数: kで表記される
- 因子・要因: 興味の対象
- 水準: 因子を調べるための分類
- 観測値の総数: すべての標本に含まれる標本サイズの合計値
-
総平均: すべての標本に含まれる観測値の合計値
- エックス・ダブル・バーで表記される
-
一元配置分散分析は、5つのステップからなります。その過程で、3つの分散を計算します。
- 一元配置分散分析では、「分散」を「平均平方(mean square)」と呼ぶ
- 手順
-
1: 誤差平均平方(mean square error):
- 郡内分散(within-group variation)とも呼ばれる
- MSwithinと表記される
- 母分散の推定を目的としている
- 特徴: 帰無仮説が正しくても、間違っていても、常に頼りになる、母分散の推定を行う
- 誤差平均平方 = 偏差平方within / 自由度within
- 偏差平方withinは、各標本の偏差平方和の総和
- 自由度within = 総標本サイズ - 標本数
-
2: 処理平均平方(treatment mean square)
- 群間分散(between-group variation)
- 最重要な役割を果たす
- MSbetweenと表記される
- 下記の条件を満たした時に、母分散を適切に推定する
- k個の母集団すべてが、等しい母分散を持つ
- 帰無仮説が正しく、k個の母集団全てが、等しい母平均を持つ
- 特徴: 帰無仮説が正しい時だけ、母分散を適切に推定する。その一方で帰無仮説が間違っていると、母分散より大きい、デタラメな数値を計算する
- 処理平均平方 = 偏差平方和between / 自由度between
- 偏差平方和between
- 自由度between
-
3: 全平均平方(total mean square)
- MStotalと表記される
- 全平均平方 = 偏差平方和total / 自由度total
-
4: 分散分析表(ANOVA table)
- 検算
-
偏差平方和に対する検算: 全平均平方 = 誤差平均平方 + 処理平均平方
- 平方和の原理を使った検算
- 自由度に対する検算: 全平均平方の自由度 = 誤差平均平方の自由度 + 処理平均平方の自由度
-
5: 検定統計量F
- RA Fisherの頭文字に由来
- 検定統計量F = 処理平均平方 / 誤差平均平方
- 帰無仮説が正しいとき: Fは1前後となる
- 帰無仮説が間違っているとき: Fは上昇する
- 検定統計量Fは、F分布と呼ばれる確率分布に従う。
-
F分布: 左右非対称の確率分布
- 検定統計量Fは、帰無仮説が間違っているときに大きい値を取るので、棄却域はF分布の右側にのみ設定する
- F分布は、自由度によって形状が変化する。
- パラメータは、誤差平均平方の自由度と処理平均平方の自由度
- F分布の臨界値(α=0.05): F0.05(dfbetween, dfwithin)
11章: 多重比較
-
多重比較: 3標本以上の比較において「これが1番。これが2番。これが3番。…」と順位をつけることを目的としている
- 明確な順位を付けられないことが多い
- 観測値の散らばりが大きい場合や、標本サイズnが不十分な場合
- 慣習的に、アルファベットを用いて結果を示す場合が多い
- 同じアルファベットを持つ標本の間には、有意差はない。一方、共通するアルファベットを持たない標本の間には、有意差がある
- 標本間のすべての対で、総当たり戦の、独立2群のt検定を行う
- n標本に対して下記のルールに従って総当たりを行う
- 同じ標本同士を検定しない
- 同じ組み合わせの標本同士を検定しない
- 検定数は{ n * (n -1) } / 2回の行う
- 多重性という問題があるため、多重比較では、「すべての標本の対で、有意水準5%の独立2群のt検定を行う」という方法は使わない
-
多重性
- 何回も独立2群のt検定を行うことで生じる問題
- FWER(familywise error rate): 全体としての有意水準
- 第1種の過誤: 帰無仮説が正しいときに、第1種の過誤を犯す確率は、有意水準αそのもので、5%です。
- 例: 独立2群のt検定を6回した場合
- 帰無仮説が正しいく、比較する母集団が全て、同じ確率分布に従う状況を考える。
- 6回の独立2群のt検定で「有意差なし」の判断されるのが正しい。
- 帰無仮説が正しい場合に、正しく「有意差なし」と結論する確率が95%とすると
- すべての独立2群のt検定が正しく結論づけられるのは、(0.95)^6 = 0.735091: 約74%となる。
- つまり、100% - 74% = 26%の確率で1回以上検定を誤る可能性がある。
- しかし、約26%という高い確率で、一回以上「有意差あり」という誤った判断をしてしまう。
- FWER: 26%
- FWERが、本来の5%より上場する性質を多重性と呼ぶ。
- 多重性と呼ばれる概念が提起しているのは、「FWERは、5%を超えるべきではない」という問題意識
-
Bonferroni correction: ボンフェローニ補正
- 多重比較時に行われる、独立2群のt検定の棄却域の総面積を調整する。
- αBonferroni = 0.05 / m
- m: 一回の多重比較の中で行う検定の数
- Holm-Bonferroni法: Bonferroni補正を改良した手法
- 多重比較の欠点: 多重性の問題をクリアした結果、有意差を見抜く能力が、単独のt検定と比べて、低下してしまう
-
Tukey-Kramer法
- テューキー・クレイマー法 / Tukey HSD(Tukey honestly significant difference)
- 前提
- 母集団が正規分布に従うこと
- すべての母集団が等しい母標準偏差を持つ等分散の仮定を持つこと
- 帰無仮説: 全ての母集団が等しい母平均を持つ
- 多重比較では、上記の帰無仮説を細分化する。
- 部分帰無仮説(subset null hypothesis): 細分化された帰無仮説
- ファミリー(family): 部分帰無仮説の集合
- 多重比較では、標本間の対の1つ1つに対して「部分帰無仮説が正しいと仮定した時に、得られたデータは十分に起こり得る結果だったかか?」を調べる。
- 検定統計量はqと表記される。
- 標本Aと標本Bに対する検定統計量q = (標本平均A - 標本平均B) / {√誤差平均平方 * √(1/2 * (1/標本サイズA + 1/標本サイズB))}
- 計算手順
- 総当たりの対戦表を作成(本来は不要だが、計算量が多く整理が必要なため)
-
誤差平均平方の計算
- 全観測値を使って偏差平方和を計算する: SUM((観測値 - 総平均)^2)
- 自由度を計算する: 総観測数 - 標本数
- 誤差平均平方の計算: 偏差平方和 / 自由度
- √誤差平均平方を計算する
- 対の回数だけ、標本平均の差を計算する
- 対の回数だけ、√誤差平均平方 * √(1/2 * (1/標本サイズA + 1/標本サイズB))}を計算する
-
臨界値q0.05を数表から読み取る
- 標本数, 自由度を使って読みとる。
- 臨界値と統計検定量qを比較する
-
アスタリスクの数で有意水準を表す
- *: 有意水準5%での有意差あり
- **: 有意水準1%での有意差あり
- ***: 有意水準0.1%での有意差あり
-
結論の書き方
-
相関(correlation): xとyの間にある、直線的に、互いに関係がある傾向を相関と呼ぶ
- 相関を調べるために、最初にすべきことは図の作成
- 相関の種類
- 正の相関(positive correlation): xの値の増加に伴って、yの値が直線状に増加する傾向のこと
- 負の相関(negative correlation): xの値の増加に伴って、yの値が直線状に減少する傾向のこと
- 無相関(no correlation):
- 相関の強弱: 相関の強弱によって、点の傾向が変化する
- 強い相関: 1つの直線に向かって、点が集中する
- 弱い相関: 散らばりを持ちながらも相関の傾向が見られる。
-
相関係数: 相関の有無や正負、強弱を評価する客観的な指標
- Pearsonの積率相関係数(Pearson product-moment correlation coefficient)
- ピアソン
- 標本相関係数(sample correlation coefficient): 実験や調査の結果から得る相関係数
- 記号rで表現する。
- r = 標本共分散 / (標本Aの標本標準偏差 * 標本Bの標本標準偏差)
- 相関の正負や強弱によって、-1から+1までの値をとる
- 標本共分散 = SUM((観測値x - 標本平均x) * (観測値y - 標本平均y)) / 自由度
- 偏差の積の平均
- 観測値の単位の選択に応じて、数値が変わってしまう。
-
相関の検定
- 統計的に有意な相関なのか?
- 2変数正規分布(bivariate normal distribution)
- 相関の有無によって形状が異なる
- 母相関係数: 標本相関係数に対する母集団の相関係数
- 母共分散 / (xの母標準偏差 * yの母標準偏差)
- 帰無仮説と対立仮説
- 帰無仮説: 相関がない
- 対立仮説: 相関がある
- 相関係数は線形な関係の検出にのみ、長けている。線形の関係がなければ、効果が落ちる。場合によっては、完全に無力
- 相関係数は線形な関係を前提にした理論に基づいている。相関係数を非線形な関係に対して計算することは、そもそも相関係数の誤用であり、避ける必要がある
-
対数変換: 観測値に対してデータ変換(変数変換)を行い下記の3つの散布図を得る
- 3つの散布図
- yだけ対数変換する
- xだけ対数変換する
- yとxの両方を対数変換する
- いつでも必ずうまくいく手法ではない
- 直線性のないデータを得たときには、必ず試す。
-
Spearmanの順位相関係数
- スピアマンの順位相関係数
- xとy、それぞれ別に、昇順で順位を割り当てる。
- タイ(同順位)がある場合は、順位の算術平均を計算する
- 順位をプロットすることで、曲線状の並びを、強制的に直線状にしてくれる
- 計算方法
- 方法1: 順位の対に対して、Pearsonの積率相関係数を計算する
- 方法2: 1 - 6 * SUM((順位rx - 順位ry)^2) / (標本サイズ^3 - 標本サイズ)
-
相関は因果関係の証明にはならない
- 擬似相関(spurious correlation): 因果関係がないのに、相関がある観測
- 交絡変数(confounding variable): 測定されていはいない、真の原因となり得る変数
13章: 単回帰分析
-
単回帰分析(simple linear regression analysis): 点(x,y)の間を通る、適切な直線を求める手法
- 説明変数: 予測に使うx
- 応答変数: 予測したいy
- 母回帰直線: E[y|x] = α + βx
-
E[y|x]: yの条件付き期待値
- とある特定のxに対応するyの期待値
- β: 母回帰係数(population regression coefficient)
-
単回帰分析では、それぞれのxに対して、yが正規分布に従うと仮定する
- 正規分布の特徴
- どのxに対する正規分布も「その中心の期待値(平均)E[y|x]が、常にこの直線状にある」
- 標準偏差は、xの値によらず、常に一定であると仮定する
-
最小二乗法:
- 標本回帰直線
- 傾きは回帰係数(regression coefficient)と呼ばれる
- 慣習的に「標本」を省略して、単に回帰直線と呼ばれる場合がほとんど
-
残差(residual): 直線から、鉛直方向に各(xi,yi)へ矢印を引いたもの
- 残差 = 実測値 - 予測値
-
残差平方和: 全ての観測値に対して残差を計算し、残差を二乗したものを足し合わせた値
- 残差平方和が最小値になるように、切片と傾きを決める
-
回帰直線の性質
- 回帰直線は必ず、xの標本平均とyの標本平均からなる点を通る
- 傾きbのもう一つの表現: b = 相関係数 * (yの標本標準偏差 / xの標本標準偏差)
- xとyを逆にしない
- Excelによる計算: 傾きをSLOPE関数とy-切片をINTERCEPT関数で計算する
- 内挿と外挿:
-
内挿: 説明変数の最低値と最高値の範囲内で、目的変数を推定する。
- 信頼できる推定値が得られる
-
外挿: 説明変数の最低値と最高値の範囲外で、目的変数を推定する。
- 範囲外で直線的な関係が続いているか保証はされない
- 理論的に直線性が保証されている場合のみ、外挿は有効。それ以外の場合は「外挿は厳禁」
- 決定係数(coefficient of determination):
- 決定係数の数値が0.87とした時、「{目的変数}の変動の87%を{説明変数}が説明した」と記述できる。
-
手順
- 全平方和の計算: 観測値yの偏差平方和を計算する
- 「yがxと関係するなんて、全く知らなかった」という前提でyの散らばりを計算する
- 残差平方和の計算: 推定値yと観測値yの差を二乗して足し合わせる
- 「yは、回帰直線を使えば、xである程度予測できる」と考える
- 回帰平方和の計算: yの標本平均から回帰直線の偏差を二乗して足し合わせる
-
回帰の恒等式: 上記の3つの平方和で下記が成り立つこと
- 全平方和 = 回帰平方和 + 残差平方和
-
決定係数の定義は、8種類ある
- 相関係数の2乗
-
単回帰分析における検定と推定
- xの偏差平方和
- 残差平均平方 = 残差平方和 / 自由度
- 回帰直線の傾きbの必要性を確認する検定: そもそも、このデータに対して単回帰分析を行う必要はあるだろうか?」を検定する
- 母回帰係数βは、「xが1単位上昇したときに、yがどれだけ変化するか?」を表す。
-
帰無仮説と対立仮説
- 帰無仮説: 傾きβはゼロ。そこで、単回帰分析を行う必要はない
- 対立仮説: 傾きβはゼロではない。単回帰分析を行う必要がある
- 検定統計量: t = 傾きβ / √(残差平均平方 / xの偏差平方和)
- 母回帰係数βの95%信頼区間
- 条件付き期待値E[y|x]の95%信頼区間(信頼帯)
-
観測値yの95%予測区間(予測帯)
基礎から学ぶ統計学のわからないところ
基礎から学ぶ統計学に出てくるキーワード
- Friedrich Bessel
- Ronald Aylmer Fisher
- Karl Pearson
- William Sealy Gosset