技術者のための確率統計学大学の基礎数学を本気で学ぶのメモ
1. 確率空間と確率変数
現実問題へに確率モデルを適用する実際の利用の流れ
- 現実世界のデータからモデルを推定
- 推定したモデルを使って予測を行う
学習時の流れ
- 根元事象とその確率を確定
- どのようなことが予測できるかという「確率計算」の手法を学ぶ
- 現実の観測結果から、それにマッチする確率モデルをどのように構成するかという「モデル推定」の理論を学ぶ
- 確率モデルが現実と合うことをどのように判定するのかという「仮説検定」へと進む
確率モデルの本質: 現実世界の不確定性を単純な乱数で置き換えるにある
2. 離散型の確率分布
- 期待値: Xの取りうる全ての値xについて、xpx(x)を足し合わせたもの。xp(x)は確率関数
- 分散: Xの値xと平均値E(X)のズレ「x - E(X)」の2乗を平均したもの
- 標準偏差: 各値と平均値E(X)とのずれ
- 共分散
- 相関係数
- 離散一様分布: 確率変数Xにおいて、取りうるすべての値が同じ確率で出現するという分布
- ベルヌーイ分布: 確率変数Xの取りうる値がx=0,1の2種類しかない場合の確率分布
- ポアソン分布:
-
正規分布:
3. 連続型の確率分布
4. パラメトリック推定と仮説検定
-
パラメトリック推定: 確率分布に含まれるパラメーターを観測データから推定する手法
- 区間推定: パラメーターθを区間で推定する方法。
- 表現: θの値は区間[a,b]に含まれているはず
- 点推定: パラメーターθを特定の値に推定する方法。
- 表現: θの値はθ0である
-
最尤推定法: パラメトリック推定の点推定の手法。尤度関数の値を最大にするパラメーターの値を求めて、そのパラメーターを推定値として採用する手法
- 尤度関数: 全データが得られる確率Pを推定対象のパラメーターの関数と見做したもの
- 対数尤度関数: 尤度関数の対数を取ったもの
- 分散の逆数: 精度
- 標本平均: 観測データから得られた平均値
- 標本分散: 観測データの平均値からの「ズレ」を2乗したもの
- 推定量と推定値: 推定のために用いられる確率変数を「推定量」、観測データから得られる具体的な値を「推定値」と呼び分ける
-
不偏推定量: 推定量の期待値が推定対象のパラメーターの真の値θに一致する場合。
- 正規分布において、標本平均μは不偏推定量になるが、標本分散は不偏推定量にならない。
- 分散の推定値が偏る原因: 観測データが少ない場合、分散が大きいデータが含まれる確率が小さいため、分散の値が実際よりも少なく見積もられるため
-
不偏分散: 尤度関数によって、算出された標本分散を不偏推定量になるように修正したもの。
- Nをデータ数とし、N / N -1 * 標本分散で修正する
- 仮説検定: 自分の確率モデルの正しさを直接に検証するのではなく、手元にある観測データが、自分の確率モデルの予測と矛盾するかどうかをチェックする
- 有意水準: 仮説を棄却するしきい値となる確率
- p値:
- 第一種の過誤: 仮説が本当は正しいのにもかかわらず、誤ってその仮説を棄却してしまった場合
- 第二種の過誤: 仮説が本当は間違っているのにもかかわらず、手元の観測データからは、その仮説が棄却できなかった場合
-
検出力: 第二種の過誤が発生しない確率
- 有意水準を固定した中で、できるだけ検出力の高い検出方法を見つけ出すことが、検定に関する理論の役割の一つ
- 帰無仮説: 棄却されることを期待する仮説(実際に主張とは逆の仮説)
- 対立仮説: 帰無仮説の逆(実際に主張したい仮説)
- 仮説検定の目的: 研究対象の仮説について、その研究を続けるべきかどうかという研究者としての判断を行うことであり、決して、自説の正しさを誰かに納得させるためのものではありません。
-
棄却域: 棄却対象とする値の範囲(事前に決めておく)
- 両側検定: 確率分布の両側を棄却対象とする
- 片側検定: 確率分布の片側を棄却対象とする
-
仮説検定の結果を公表