1. データを1つの数字でまとめる(代表値)
たくさんのデータの特徴を、1つの数字で表す方法が3つあるよ。
🔑 平均値 = 全部足して個数で割る
例: 3, 5, 7 の平均 = (3+5+7)÷3 = 5
🔑 中央値 = 小さい順に並べて真ん中の値
データが偶数個のときは、真ん中2つの平均を取る
🔑 最頻値 = 一番多く出てくる値
例: 3, 5, 5, 5, 7 → 最頻値は 5(3回出てくる)
2. データのばらつき(分散・標準偏差)
「平均は同じだけど散らばり方が違う」ことがある。
その散らばり具合を数字にしたのが分散と標準偏差。
🔑 分散の求め方
① 各データと平均の差(偏差)を出す
② それぞれ2乗する
③ 2乗したものの平均を取る → それが分散!
🔑 標準偏差 = 分散のルート
分散が16なら、標準偏差は√16 = 4
💡 計算の裏ワザ: 分散 = 「2乗の平均」−「平均の2乗」で計算するとラク!
3. データを4等分する(四分位数)
データを小さい順に並べて、4等分する位置の値のこと。箱ひげ図はこれを図にしたもの。
- Q1: 下から25%の位置(下半分の中央値)
- Q2: 下から50%の位置(全体の中央値)
- Q3: 下から75%の位置(上半分の中央値)
🔑 箱ひげ図の見方
📝 例: データ 1, 3, 5, 7, 9, 11
→ Q1 = 3、Q2 = 6、Q3 = 9 → 四分位範囲 = 9 - 3 = 6
4. 2つのデータの関係(相関)
「身長が高い人ほど体重も重い?」のように、2つのデータの関係の強さを数字にしたのが相関係数 r。
正の相関
r ≈ 1
相関なし
r ≈ 0
負の相関
r ≈ -1
💡 目安: |r| が 0.7以上なら「強い相関あり」と言える。
ただし相関があっても「因果関係がある」とは限らないので注意!
✏️ データの分析 演習問題(10問)
Q1.データ 3, 5, 7, 9, 11 の平均値を求めよ。
Q2.データ 2, 4, 6, 8, 10 の中央値(メジアン)を求めよ。
Q3.データ 3, 3, 5, 5, 5, 7, 9 の最頻値(モード)を求めよ。
Q4.データ 2, 4, 6, 8, 10 の分散を求めよ。
Q5.分散が 16 のとき、標準偏差はいくらか。
Q6.データ 1, 3, 5, 7, 9, 11 の四分位範囲を求めよ。
Q7.相関係数 r の範囲として正しいものは?
Q8.相関係数 r = -0.85 のとき、どのような相関があるか。
Q9.すべてのデータに定数 c を足すと、分散はどうなるか。
Q10.すべてのデータを k 倍すると、標準偏差はどうなるか。