【スケーリングと正規分布:割り算が描く“標準”のかたち】

こんにちは。ゆうせいです。

前回は、機械学習の「正則化」に割り算がどう関わっているかを学びましたね。
罰金のように見えるλ(ラムダ)も、実は係数の“調整”という意味で割り算の思考が深く関わっていました。

今回はいよいよ、統計の世界の「」とも言えるテーマ、正規分布とスケーリングの関係に迫ります。

なぜ標準正規分布は平均0・標準偏差1なの?
なぜ正規分布にzスコアや割り算が出てくるの?
スケーリングって何のためにやるの?

こうした疑問を、「割り算の視点」から紐解いていきましょう!


1. 正規分布とは何か?

まずは定番のおさらいから。

正規分布(normal distribution)とは、自然界や社会のさまざまな現象に登場する「釣鐘型の分布」のことです。

たとえば:

  • 身長
  • 体重
  • テストの点数
  • 製品の誤差
  • センサーのノイズ

など、平均値の周りに“偶然的に”ばらつくデータが、正規分布に従うことが多いんですね。


2. 正規分布の数式と割り算

正規分布はこんな数式で表されます:

f(x) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left( -\frac{(x - \mu)^2}{2\sigma^2} \right)

(エフエックスイコール、ルート2パイかけるシグマ分の1、かける指数マイナス……)

この中にも割り算が2つ登場しています。

つまりこの数式は、

「平均との差がどれだけ“標準的なばらつき(σ)”に比べて大きいか?」

という比の世界でデータを評価しているんです。


3. 標準正規分布とは?

標準正規分布(standard normal distribution)とは:

  • 平均:0(μ = 0)
  • 標準偏差:1(σ = 1)

という特別な正規分布のことです。

zスコアを使えば、どんな正規分布でもこの標準正規分布に変換できます。

変換式:

z = \frac{x - \mu}{\sigma}

出ました、またしても割り算!

これは:

「データxが、平均から何σ分だけ離れているか?

を表しています。

つまり、正規分布の中での“立ち位置”を比率で示しているんですね。


4. 割り算が作る“比較可能な世界”

ここで割り算が果たしている役割をまとめてみましょう。

割り算の場面何を比較しているか
x - \mu基準(平均)との差
(x - \mu)/\sigma差の「ばらつき」に対する大きさ(相対値)
ロジスティック関数の割り算確率を比で表す

これらに共通するのは、「そのままの値ではなく、基準に対する比として扱う」という発想です。


5. スケーリングとは?

スケーリングとは、異なるスケール(尺度)を持つデータを、比較できる形に揃えることです。

たとえば:

  • 身長(cm)→ [150〜190]
  • 年収(万円)→ [200〜2000]

このままでは、年収の値の方が大きすぎて、モデルに強い影響を与えてしまいます。

そこで、以下のような操作を行います。

【主なスケーリング方法】

方法数式特徴
標準化(zスコア)z = \frac{x - \mu}{\sigma}正規分布を仮定。平均0、分散1に変換
最小最大正規化x' = \frac{x - \min(x)}{\max(x) - \min(x)}0〜1の範囲に変換
ロバストスケーリングx'' = \frac{x - \text{Median}}{\text{IQR}}外れ値に強い

すべて割り算が登場していますね!


6. なぜ割り算を使うのか?

もう一度整理すると、割り算は次のような効果を持ちます。

  • 単位を消す → 無次元化(比較可能に)
  • 位置を測る → 中心からの離れ具合
  • スケールを統一 → 高さ・広がりを調整
  • 比率で評価 → 「これってどれくらい?」が一目瞭然

たとえるなら、割り算は定規のようなもの。

1mのものをcm単位で測ると100cm。
でも100cmの定規で測れば「ちょうど1つ分」。

つまり、測る物差し(σなど)を揃えるために割り算しているのです!


7. 図でイメージしよう!

【図1:正規分布とzスコア】

  • 横軸:zスコア(−3σ〜+3σ)
  • 縦軸:確率密度
  • 平均(z=0)を中心に左右対称
  • z=±1, ±2, ±3 に縦線を引いて領域を色分け

→ zが±1の範囲には約68%のデータが含まれる!という特徴が一目でわかります。


まとめ

  • 正規分布の数式には、平均と標準偏差を使った「割り算」が登場する
  • 割り算によって“そのデータがどこに位置するか”を相対的に表現
  • 標準化(zスコア)やスケーリングは、比較のための準備として非常に重要
  • 正規分布とは「割り算の世界でのバランスのとれた形」とも言える

次回予告:「割り算の“限界”とその先へ:非線形性とスケーリングの再考」

次は、「割り算では捉えきれない世界」について取り上げます。

線形な世界では大活躍する割り算も、
非線形な関係、階段的な変化、分類タスクなどでは限界があります。

そんなとき、どんな発想が必要になるのか?
非線形モデル、カーネル法、正規化以外の方法なども交えてお話ししていきます。

どうぞお楽しみに!

生成AI研修のおすすめメニュー

投稿者プロフィール

山崎講師
山崎講師代表取締役
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。