統計の知識整理のために、統計検定2級を受講する。 その際にしたことを書いていく。
試験概要(2022/11時点)
- 試験方式: CBT方式
- 出題形式: 4~5肢選択問題
- 問題数: 35問程度
- 試験時間: 90分
- 合格水準: 100点満点で、60点以上
-
電卓
- 持ち込み可能な電卓: 四則演算(+-×÷)や百分率(%)、平方根(√)の計算ができる普通電卓(一般電卓)または事務用電卓
- 持ち込み不可の電卓: 上記の電卓を超える計算機能を持つ金融電卓や関数電卓、プログラム電卓、グラフ電卓、電卓機能を持つ携帯端末
実施趣旨(引用)
統計学は「科学の文法」と言われているように、自然科学、人文科学、社会科学等の学問分野で、実証分析、データに基づいた意思決定等のために用いられています。 第4の科学と言われている「データ中心科学」の礎、中核となる理論、手法を提供しています。 統計学の知識を利用することにより、仮説に対してデータをもとに検証するという統計的問題解決が行えます。 日本においても、統計関連学会連合において、大学における「統計学分野の教育課程編成上の参照基準」が作成されました。 統計検定2級は、この参照基準に示されている大学基礎科目レベルの統計学の知識の習得度と活用のための理解度を問うために実施される検定です。
試験内容(引用)
大学基礎課程(1・2年次学部共通)で習得すべきことについて検定を行います。
- 現状についての問題の発見、その解決のためのデータの収集
- 仮説の構築と検証を行える統計力
- 新知見獲得の契機を見出すという統計的問題解決力
具体的な内容
統計検定2級では、統計検定3・4級の内容に加え、以下の内容を含みます。
-
データソース
- 身近な統計: 歴史的な統計学の活用や、社会における統計の必要性の理解。データの取得の重要性も理解する。
- (調べる場合の)データソース
- 公的統計など
-
データの分布
- データの分布の記述: 集められたデータから、基本的な情報を抽出する方法を理解する。
- 質的変数(カテゴリカル・データ)
- 量的変数(離散型、連続型)
- 棒グラフ
- 円グラフ
- 幹葉図
- 度数分布表・ヒストグラム
- 累積度数グラフ
- 分布の形状(右に裾が長い、左に裾が長い、対称、ベル型、一様、単峰、多峰)
-
1変数データ
- 中心傾向の指標: 分布の中心を説明する方法を理解する。
- 平均値
- 中央値
- 最頻値(モード)
- 散らばりなどの指標: 分布の散らばりの大きさなどを評価する方法を理解する。
- 分散(n-1で割る)
- 標準偏差
- 範囲(最小値、最大値)
- 四分位範囲
- 箱ひげ図
- ローレンツ曲線
- ジニ係数
- 2つのグラフの視覚的比較
- カイ二乗値(一様な頻度からのずれ)
- 歪度
- 尖度
- 中心と散らばりの活用: 標準偏差の意味を知り、その活用方法を理解する。
- 偏差
- 標準化(z得点)
- 変動係数
- 指数化
-
2変数以上のデータ
- 散布図と相関: 散布図や相関係数を活用して、変数間の関係を探る方法を理解する。
- 散布図
- 相関係数
- 共分散
- 層別した散布図
- 相関行列
- みかけの相関(擬相関)
- 偏相関係数
- カテゴリカルデータ: 質的変数の関連を探る方法を理解する。
- 度数表
- 2元クロス表
-
データの活用
- 単回帰と予測: 回帰分析の基礎を理解する。
- 最小二乗法
- 変動の分解
- 決定係数
- 回帰係数
- 分散分析表
- 観測値と予測値
- 残差プロット
- 標準誤差
- 変数変換
- 時系列データの処理: 時系列データのグラフ化や分析方法を理解する。
- 成長率
- 指数化
- 幾何平均
- 系列相関・コレログラム
- トレンド
- 平滑化(移動平均)
-
推測のためのデータ収集法
- 観察研究と実験研究: 要因効果を測定する場合の、実験研究と観察研究の違いを理解する。
- 観察研究
- 実験研究
- 調査の設計
- 母集団
- 標本
- 全数調査
- 標本調査
- ランダムネス
- 無作為抽出
- 標本調査と無作為抽出: 標本調査の基本的概念を理解する。
- 標本サイズ(標本の大きさ)
- 標本誤差
- 偏りの源
- 標本抽出法(系統抽出法、層化抽出法、クラスター抽出法、多段抽出法)
- 実験: 効果評価のための適切な実験の方法について理解する。
- 実験のデザイン(実験計画)
- フィッシャーの3原則
-
確率モデルの導入
- 確率: 推測の基礎となる確率について理解する。
- 事象と確率
- 加法定理
- 条件付き確率
- 乗法定理
- ベイズの定理
- 確率変数: 確率変数の表現と特徴(期待値・分散など)について理解する。
- 離散型確率変数
- 連続型確率変数
- 確率変数の期待値・分散・標準偏差
- 確率変数の和と差(同時分布、和の期待値・分散)
- 2変数の共分散・相関
- 確率分布: 基礎的な確率分布の特徴を理解する。
- ベルヌーイ試行
- 二項分布
- ポアソン分布
- 幾何分布
- 一様分布
- 指数分布
- 正規分布
- 2変量正規分布
- 超幾何分布
- 負の二項分布
-
推測
- 標本分布
-
推測統計の基礎となる標本分布の概念を理解する。
- 独立試行
- 標本平均の期待値・分散
- チェビシェフの不等式
- 大数の法則
- 中心極限定理
- 二項分布の正規近似
- 連続修正
- 母集団
- 母数(母平均、母分散)
-
正規母集団に関する分布とその活用について理解する。
- 標準正規分布
- 標準正規分布表の利用
- t分布
- カイ二乗分布
- F分布
- 分布表の活用
- 上側確率点(パーセント点)
- 推定
-
点推定と区間推定の方法とその性質を理解する。
- 点推定
- 推定量と推定値
- 有限母集団
- 一致性
- 不偏性
- 信頼区間
- 信頼係数
-
1つの母集団の母数の区間推定の方法を理解する。
- 正規母集団の母平均・母分散の区間推定
- 母比率の区間推定
- 相関係数の区間推定
-
2つの母集団の母数の区間推定の方法を理解する。
- 正規母集団の母平均の差・母分散の比の区間推定
- 母比率の差の区間推定
- 仮説検定
-
統計的検定の意味を知り、具体的な利用方法を理解する。
- 仮説検定の理論
- p値
- 帰無仮説(H0)と対立仮説(H1)
- 両側検定と片側検定
- 第1種の過誤と第2種の過誤
- 検出力
-
1つの母集団の母数に関する仮説検定の方法について理解する。
- 母平均の検定
- 母分散の検定
- 母比率の検定
-
2つの母集団の母数に関する仮説検定の方法について理解する。
- 母平均の差の検定(分散既知、分散未知であるが等分散、分散未知で等しいとは限らない場合)
- 母分散の比の検定
- 母比率の差の検定
-
適合度検定と独立性の検定について理解する。
- 適合度検定
- 独立性の検定
-
線形モデル
- 回帰分析: 重回帰分析を含む回帰モデルについて理解する。
- 回帰直線の傾きの推定と検定
- 重回帰モデル
- 偏回帰係数
- 回帰係数の検定
- 多重共線性
- ダミー変数を用いた回帰
- 自由度調整(修正)済み決定係数
- 実験計画の概念の理解: 実験研究による要因効果の測定方法を理解する。
- 実験
- 処理群と対照群
- 反復
- ブロック化
- 一元配置実験
- 3群以上の平均値の差(分散分析)
- F比
-
活用
- 統計ソフトウェアの活用: 統計ソフトウェアを利用できるようになり、統計分析を実施できるようになる。
- 計算出力を活用できるか、問題解決に活用できるか
キーワード
データソース
-
身近な統計: 歴史的な統計学の活用や、社会における統計の必要性の理解。データの取得の重要性も理解する。
-
質的変数(カテゴリカル・データ): カテゴリで示される変数
- 近さ・間取り・方角など
-
量的変数(離散型、連続型): 数量(観測値)で示される変数
- 家賃・大きさ・築年数
-
尺度: 変数をそれぞれの値が持つ性質の意味合いから整理するしたもの
- 名義尺度: 同じ値かどうかのみ意味がある
- 順序尺度: 値の大小関係に意味がある
- 間隔尺度: 値の大小関係と値の差の大きさに意味がある。値0は相対的な意味しか持たない
- 比例尺度: 値の大小関係と値の差の大きさ、比に意味がある。値が0が絶対的な意味を持つ
-
度数分布表: 最大値と最小値の間をいくつかの階級に分け、それぞれの階級に含まれる度数を数え上げる。
- 相対度数: 度数の総和に対する各階級の度数の割合
- ヒストグラム: 度数分布表から作成する柱状のグラフ
-
分布の形状(右に裾が長い、左に裾が長い、対称、ベル型、一様、単峰、多峰)
- ベル型: 左右対称になっているベルのような形
- 右に裾が長い: ピークが左にあり、大きな値が存在する場合
- 左に裾が長い: ピークが右にあり、小さな値が存在する場合
- 一様: ある範囲内でどの値も同程度に出現する場合
-
幹葉図: 階級幅が等間隔である場合のヒストグラムと同様の効果を持つ
- 階級分けをする桁とその次の桁を並べて表現する
- 累積相対度数: はじめの階級からその階級までに含まれる相対度数の和のこと
- 累積分布図: データを小さい順に並べ、縦軸に値を、横軸にその値以下の値を示した個体の全数に対する割合をとる。
- 棒グラフ: 度数や相対度数を表すグラフ
-
円グラフ: 全体に対する割合を示すグラフ
1変数データ
中心傾向の指標: 分布の中心を説明する方法を理解する。
-
平均値: 観測値の総和を観測数で割る
- 全観測値の重心。
- 中心の位置の指標
-
分散: 観測値が平均からどの程度離れているかを測る量。
- 各観測値の平均からの偏差の二乗和を観測数で割ったもの
- 単位が元の観測値と異なる
-
標準偏差: 散らばりの指標
- 分散の平方根をとって単位を揃えたもの。
-
中央値: 観測値を小さい順に並べ、ちょうど真ん中に位置する観測値
- 観測数が偶数の場合、真ん中の二つの値の平均となる
- 最頻値(モード): 最も多く観測された観測値
散らばりなどの指標: 分布の散らばりの大きさなどを評価する方法を理解する。
- 分散(n-1で割る)
- 標準偏差
-
範囲(最小値、最大値): 観測値の最大値と最小値の差
- 第1四分位数: 25%点
- 第2四分位数: 50%点=中央値
- 第3四分位数: 75%点
- 四分位範囲: 第3四分位数と第1四分位数の差
- 5数要約: 最小値, 第1四分位数, 第2四分位数(中央値), 第3四分位数, 最大値
- 箱ひげ図: 5数要約を可視化したグラフ
-
ローレンツ曲線: 量の集中度あるいは格差を表すためのグラフ
- アメリカの官庁統計家M.Oローレンツが考案した
- 原点(0,0)から終点(1,1)をもつ正方形の中に描かれる
- 原点(0,0)から終点(1,1)を通る45度線
- 完全平等線: ローレンツ曲線が直線の場合
- 下側に膨らむほど不平等であることを示す。
- 描き方:
- データを低い順に並べる
- データをいくつかの変数に分け、各階級の度数と総量を計算する
- 各階級に対して、度数と総量に対する相対度数を示す
- 度数の累積相対度数を横軸に、総量の累積相対度数を縦軸にとって描く。
- ジニ係数: ローレンツ曲線は分配の不平等さを示すグラフであるが、不平等さを数値として示した係数
- 正方形に対し、完全平等線と弧の形で描かれたグラフで囲まれた面積の割合の2倍と定義される
- 不平等の程度を、0~1の間の値として表す
- 0に近いほど平等、1に近いほど不平等となる
- 2つのグラフの視覚的比較
- カイ二乗値(一様な頻度からのずれ)
- 歪度
- 尖度
中心と散らばりの活用: 標準偏差の意味を知り、その活用方法を理解する。
- 偏差
- 標準化(z得点): 各観測値に対して、平均と標準偏差を使って、平均が0、標準偏差1になるように変換すること
- 変動係数: 標準偏差を平均で標準化したもの。標準偏差を平均で割る
-
指数化
2変数以上のデータ
散布図と相関: 散布図や相関係数を活用して、変数間の関係を探る方法を理解する。
- 散布図: 二つの変数を2次元平面上に記述したグラフ
-
共分散: 二つの変数の標準偏差を掛け合わせたものの総和を観測数で割ったもの
- 相関係数: 共分散を二つの標準偏差で割ったもの
- -1~1の間の値をとる。
- 層別した散布図
- 相関行列
- みかけの相関(擬相関)
- 偏相関係数
カテゴリカルデータ: 質的変数の関連を探る方法を理解する。
- 度数表
-
2元クロス表: 2つの量的変数を階級分けし、両方の階級に該当する度数を集計したものを二次元表で表したもの。
データの活用
-
単回帰と予測: 回帰分析の基礎を理解する。
- 最小二乗法
- 変動の分解
- 決定係数
- 回帰係数
- 分散分析表
- 観測値と予測値
- 残差プロット
- 標準誤差
- 変数変換
-
時系列データの処理: 時系列データのグラフ化や分析方法を理解する。
-
観察研究と実験研究: 要因効果を測定する場合の、実験研究と観察研究の違いを理解する。
- 観察研究
- 実験研究
- 調査の設計
- 母集団
- 標本
- 全数調査
- 標本調査
- ランダムネス
- 無作為抽出
-
標本調査と無作為抽出: 標本調査の基本的概念を理解する。
- 標本サイズ(標本の大きさ)
- 標本誤差
- 偏りの源
- 標本抽出法(系統抽出法、層化抽出法、クラスター抽出法、多段抽出法)
-
実験: 効果評価のための適切な実験の方法について理解する。
-
確率: 推測の基礎となる確率について理解する。
- 事象と確率
- 加法定理
- 条件付き確率
- 乗法定理
- ベイズの定理
-
確率変数: 確率変数の表現と特徴(期待値・分散など)について理解する。
- 離散型確率変数
- 連続型確率変数
- 確率変数の期待値・分散・標準偏差
- 確率変数の和と差(同時分布、和の期待値・分散)
- 2変数の共分散・相関
-
確率分布: 基礎的な確率分布の特徴を理解する。
-
標本分布
- 推測統計の基礎となる標本分布の概念を理解する。
- 独立試行
- 標本平均の期待値・分散
- チェビシェフの不等式
- 大数の法則
- 中心極限定理
- 二項分布の正規近似
- 連続修正
- 母集団
- 母数(母平均、母分散)
- 正規母集団に関する分布とその活用について理解する。
- 標準正規分布
- 標準正規分布表の利用
- t分布
- カイ二乗分布
- F分布
- 分布表の活用
- 上側確率点(パーセント点)
-
推定
- 点推定と区間推定の方法とその性質を理解する。
- 点推定
- 推定量と推定値
- 有限母集団
- 一致性
- 不偏性
- 信頼区間
- 信頼係数
- 1つの母集団の母数の区間推定の方法を理解する。
- 正規母集団の母平均・母分散の区間推定
- 母比率の区間推定
- 相関係数の区間推定
- 2つの母集団の母数の区間推定の方法を理解する。
- 正規母集団の母平均の差・母分散の比の区間推定
- 母比率の差の区間推定
-
仮説検定
-
回帰分析: 重回帰分析を含む回帰モデルについて理解する。
- 回帰直線の傾きの推定と検定
- 重回帰モデル
- 偏回帰係数
- 回帰係数の検定
- 多重共線性
- ダミー変数を用いた回帰
- 自由度調整(修正)済み決定係数
-
実験計画の概念の理解: 実験研究による要因効果の測定方法を理解する。
-
統計ソフトウェアの活用: 統計ソフトウェアを利用できるようになり、統計分析を実施できるようになる。
- 計算出力を活用できるか、問題解決に活用できるか