改訂版日本統計学会公式認定統計検定2級対応統計学基礎のメモ
第一章: データの記述と要約
- 質的変数: カテゴリで示される
- 量的変数: 数量で示される
-
4つの尺度
- 名義尺度: 同じ値かどうかのみ意味がある
- 質的変数
- 度数/最頻値
- 性別、好きな色、職業
- 順序尺度: 値の大小関係に意味がある
- 質的変数
- 度数/最頻値/中央値/四分位数
- 好みの評価、成績評価
- 間隔尺度: 値の大小関係と値の差の大きさに意味がある。値0は相対的な意味しか持たない
- 量的変数
- 度数/最頻値/中央値/四分位数/平均/標準偏差
- 摂氏での気温、偏差値
- 比例尺度: 値の大小関係と値の差の大きさ、比に意味がある。値0が絶対的な意味を持つ
- 量的変数
- 度数/最頻値/中央値/四分位数/平均/標準偏差/変動係数/幾何平均
- 身長、体重、年齢
-
度数分布表
- 手順
- 最小値と最大値の間をいくつかの階級に分ける
- 階級に含まれる度数を数え上げる。
- 相対度数: 度数の総和に対する各階級の度数の割合を示す
- ヒストグラム: 度数分布表から作成される柱状のグラフ
- 度数と階級の数や階級幅とのバランスが重要
-
概形
- ベル型: 左右対称になっているベルのような形の場合
- 右に裾が長い: ピークが左にあり、大きな値が存在する場合
- 左に裾が長い: ピークが右にあり、小さな値が存在する場合
- 一様: ある範囲内でどの値も同程度に出現する場合
-
上記の概形に沿わない、複数峰を持つ分布
- 複数の異なる分布が合わさっているのではないか?
- データの大きさが十分ではないのではないか?
- 幹葉図
- 累積相対度数
- 累積分布図
-
ローレンス曲線
- 完全平等線
-
ジニ係数: 不平等さを数値として表した
- 完全平等線と弧の形で描かれたグラフで囲まれた面積の割合の2倍と定義される
- 不平等の程度を0から1で表現できる。
-
基本統計量
- 平均: 分布の「中心の位置の指標」として使われる。しかし、分布の左右対称性によって中心としての意味が変化する
- 分散
- 標準偏差
- 標準化得点: 標準化得点 = (観測値 - 平均) / 標準偏差
- 変動係数(CV, coefficient of variation): CV = 標準偏差 / 平均
- 平均が大きく異なるデータ同士の散らばり方の比較時に行う
- 中央値(中位数, メディアン, median): 観測値を小さい順に並べ、ちょうど真ん中に位置する観測値
- 観測値の総数が偶数の場合、真ん中に位置する観測値の平均を取る
- 最頻値(モード, mode): 最も多く観測された観測値
- 山が一つの分布である場合に有効
- データの大きさがそれなりに多い場合に有効
- 左右対称の場合に、「平均=中央値=最頻値」となる
- 範囲: 観測値の最大値 - 観測値の最小値
- 四分位数
- 第1四分位数(Q1): 観測値を小さな順に並べたときに、25%の位置にある値
-
第2四分位数(Q2): 観測値を小さな順に並べたときに、50%の位置にある値
- 中央値と同義
- 第3四分位数(Q3): 観測値を小さな順に並べたときに、75%の位置にある値
- 四分位範囲(IQR): Q3 - Q1
- 5数要約
- 最小値
- 第1四分位数(Q1)
- 第2四分位数(Q2)
- 第3四分位数(Q3)
- 最大値
- 箱ひげ図: 5要約数を資格的に利用してデータ表現したもの
- 箱の大きさで、四分位数の間隔を可視化
- 髭の長さで、値の幅を可視化
- 外れ値: データの観測値の中で、他と比較してとても小さな、または大きな値
-
対応方法: 下記の数値を使い、[Q1 - 1.5IQR, Q3 + 1.5IQR]の範囲を超える観測値を外れ値として扱う。
- 第1四分位数: Q1
- 第3四分位数: Q3
- 四分位範囲: IQR
- 箱ひげ図の場合、外れ値を点として描画することもある。
- 偏相関: 見かけ上の相関
-
偏相関係数: x,y,zという3つの変数において、2つの変数間の相関に第三の変数が影響を除いて検討する。
- 偏相関係数(yz・x) = (相関係数yz - 相関係数xy * 相関係数xz) / (√(1-相関係数xy^2) * √(1-相関係数xz^2))
-
最小二乗法による解を採用した際の性質
- 予測値の平均は観測値の平均と等しい
- 残差の平均は0となる
- 回帰直線は点(xの平均値, yの平均値)を通る
- 予測値と残差の相関係数は0である
- 平方和の分解: 応答変数の変動の大きさを表す平方和は回帰による平方和と残差平方和に分解できる
- 決定係数(寄与率): 平方和の中の回帰による平方和の割合
- 決定係数 = 回帰による平方和 / 観測値の平方和
- 完全に説明できる場合: 決定係数 = 1 かつ 残差平方和 = 0
- 全く説明できない場合: 決定係数 = 0 かつ 回帰による平方和 = 0
-
時系列データの変動分解: yt = TCt + St + It
- 傾向変動(TC): 基本的な長期に渡る動きを表す変動を指す
- 季節変動(S): 1年を周期として循環を繰り返す変動を指す
- 不規則変動(I): 上記以外の変動で、規則的ではない変動を指す
- 移動平均: 時点tでの値とk時点前からk時点後までの2k+1個の値を用いて求める
-
指数
- ラスパイレス式: 基準時点の構成比を用いた加重算術平均
- パーシェ式: 比較時点の構成比を用いた加重調和平均
- フィッシャー式: ラスパイレス式とフィッシャー式の幾何平均
第二章: 確率と確率分布
- 記述統計: データの表す集団の性質を記述し要約する
- 推測統計: データの元になっている集団について推測する
-
確率の定義:
- 古典的な定義(ラプラスの定義): 任意の事象の確率をその事象に含まれる根元事象の数に基づいて計算する方法
- 頻度に基づく定義: 試行回数を増やすことで根元事象の相対頻度を元にして計算する方法
- ベイズ統計学で用いられる主観に基づく定義
- 条件付き確率: Aが起こるという条件の下でBの起こる確率
- 確率変数: いろいろの値をとりうる変数Xがあって、それぞれの値をとる確率が決まっているときXを確率変数という。
-
モーメント: 平均や分散を一般化した概念(積率, moment)
- k次のモーメント: 原点まわりのモーメント
- 平均は1次のモーメント
- 中心まわりのモーメント: 平均のまわりのモーメント
- 分散は2次の中心モーメント
- 歪度: 非対称性の度合いを図る
- 平均を中心として確率分布が対称なら0
- 平均を中心として確率分布が右に長い裾を持つなら正の値
- 平均を中心として確率分布が左に長い裾を持つなら負の値
- 尖度:平均付近の尖り具合及び分布の裾の長さに関係する
- 正規分布を基準としてそれよりも裾が長ければ正の値
- 正規分布を基準としてそれよりも裾が短ければ負の値