【統計量と“基準化”:平均・標準偏差が生み出すスコアの正体】

こんにちは。ゆうせいです。

前回は、ログ変換割り算の関係について学びましたね。
割り算をログで引き算に変えることで、データを比較しやすく整理する方法を見てきました。

今回は4つ目のテーマ、「統計量における“基準化”の考え方」です。

私たちが普段目にする偏差値やzスコア、スコアリングなど、すべてはこの「基準化」に基づいています。

でもそもそも……

「なぜ平均からの差を見るの?」
「標準偏差で割るって、なんで?」

という素朴な疑問、感じたことありませんか?

今回は、統計の世界で最も基本でありながら、最も深い考え方である「基準化」を、わかりやすく、丁寧に解説します!


1. 「基準化」って何?

統計における基準化(standardization)とは、ある基準に対してデータの位置を示す変換のことです。

一番有名なのがzスコア(標準得点)です。

数式で書くとこうなります:

z = \frac{x - \mu}{\sigma}
(ズィーイコール、エックス引くミュー、わることのシグマ)

  • x:個別のデータ
  • μ(ミュー):平均(データの中心)
  • σ(シグマ):標準偏差(ばらつきの尺度)

この式、前にも出てきましたね。
今回はこれを、「なぜこんな形になるのか?」という観点から考えてみましょう。


2. 平均とは「比較の出発点」

まず、平均(μ)は「データの中心」を示します。

たとえば、クラスの数学の平均点が70点だとしましょう。
ここで、ある生徒が80点を取った場合、「平均より10点高い」ことになります。

これが x - \mu です。

つまり、

「自分の位置が、全体のどこにあるか?」
を知るには、まず「平均との差」を見る必要があるんですね。


3. でも「10点高い」は状況による…

さて、さっきの例で「10点高い」と言いましたが……

もしクラスの点数がほとんど全員70点付近だったら?
→ その10点は大きな差ですね。

でも、全体が40点〜100点のようにバラバラだったら?
→ その10点はたいした差ではないかもしれません。

この「ばらつき」の程度を表すのが標準偏差(σ)です。


4. 標準偏差で割る意味とは?

標準偏差(σ)は、「データがどれだけ平均から散らばっているか」の平均的な距離を示します。

つまり、\frac{x - \mu}{\sigma} という割り算は、

「平均との差が、どれだけ大きいかを、全体のばらつきに対して比べている」

ということなんです。

これによって、単位を持っていたデータ(点数など)が無次元化(単位を持たない)され、他のスコアとも比較しやすくなります。


5. 偏差値も同じ原理!

日本でおなじみの「偏差値」も、実はこのzスコアを変形したものです。

偏差値の式はこうです:

\text{偏差値} = 50 + 10 \times z

つまり、「zスコアを10倍して50を足したもの」が偏差値になります。

これによって:

  • 平均点 → 偏差値50
  • 1σ上(1標準偏差上)→ 偏差値60
  • 1σ下 → 偏差値40

となり、どのくらい「平均から離れているか」がわかりやすくなります!


6. 図でイメージしよう!

【図1:基準化のビジュアル】

  • 横軸:点数(50点〜100点)
  • 中央に「平均70点」のライン
  • 各点が「標準偏差でどれくらい離れているか?」を示す矢印
  • zスコア=その距離 ÷ 標準偏差

7. なぜ基準化が重要なのか?

ここで「なぜそんなことをわざわざするのか?」という疑問が出てきます。

理由は以下のとおり:

理由説明
単位をそろえる身長(cm)や体重(kg)など、違う単位を比較可能に
外れ値の影響を調整するデータのばらつきが大きくても位置づけを正確にできる
分布の形を正規化しやすく正規分布に近づけると統計的手法が使いやすくなる
モデルの学習を安定化機械学習アルゴリズムにとって扱いやすいスケールに

8. 例えで理解しよう!

たとえば、50m走と100m走でタイムを比べたとします。

  • 50m:7秒
  • 100m:13秒

そのまま比べられませんよね?
そこで、それぞれの種目ごとの平均や標準偏差を使って「どっちがすごいか?」を評価する。

これがまさに基準化の考え方です!


まとめ

  • 基準化は「平均との差を、標準偏差で割って比率化」する操作
  • 単位を取り除き、比較しやすくするのが目的
  • zスコアや偏差値など、身近な統計指標にも使われている

次回予告:「回帰分析で現れる“割り算の正体”」

次回はいよいよ、回帰分析の中で頻繁に現れる「割り算」の真の意味に迫ります!

「回帰係数」って結局どうやって計算されてるの?
「傾き」って何? 「標準化回帰係数」とは?

そんな疑問を、数式とグラフで一つずつ解き明かしていきます。

お楽しみに!

生成AI研修のおすすめメニュー

投稿者プロフィール

山崎講師
山崎講師代表取締役
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。