「白色化(whitening)」について、やさしく、でも本質的に解説

こんにちは。ゆうせいです。
今回は、データ前処理の中でも特に統計・機械学習・画像処理でよく登場する概念、「白色化(whitening)」について、やさしく、でも本質的に解説していきます。
「白色化って“ホワイト”ってこと?なんでそんな名前なの?」
「標準化と何が違うの?」
と疑問に思ったことはありませんか?
この記事では、白色化の意味・目的・数式・使いどころ・標準化との違いまで、高校生でもイメージしやすいように説明していきます!
白色化(Whitening)とは?名前の由来から!
まず、「白色化」という名前の由来を押さえておきましょう。
「白色化」の“白”は、白色雑音(white noise)の“白”!
白色雑音とは、あらゆる周波数成分が等しく含まれている信号のことです。
たとえば、テレビの「ザーッ」というノイズ音をイメージしてみてください。
この「すべての成分が独立・均等・無相関」という性質に由来して、
データの相関を取り除いて、すべての成分を独立かつ等しいスケールにする処理
→ それが「白色化(whitening)」です!
白色化の目的は?
データの相関を取り除いて、均一に整えること
白色化は、以下の2つを満たすことを目指します:
- 各次元の分散が1(スケールの統一)
- すべての次元間の共分散が0(無相関)
つまり、「単位分散で無相関なデータに変換する」ことが白色化の目的です。
数式で理解する白色化
元のデータ行列を (各行がサンプル、各列が特徴量)とすると、
手順はこうです:
① 標準化(Zスコア変換)
各特徴量から平均を引いて、分散で割る
② 主成分分析(PCA)で回転させる
→ 主成分空間に変換(相関を除く)
③ 固有値でスケーリング
→ 各成分の分散を1に整える(白色雑音化)
白色化後のデータを とすると、共分散行列は:
ここで は単位行列です。つまり、全ての成分が独立かつ分散1!
白色化と標準化の違いは?
処理名 | 目的 | 何をする? | 相関を除く? |
---|---|---|---|
標準化 | 特徴量のスケールを統一 | 平均0・分散1に変換 | ✕(相関は残る) |
白色化 | 相関を除去+スケール統一 | 分散1かつ無相関に変換 | ○(完全に除く) |
- 標準化は「縦方向(各列)だけ見る」
- 白色化は「全体の構造(共分散)を見て、斜め方向も回転して整える」
たとえ話でイメージ!
例:果物の箱詰め
- 標準化:各果物のサイズを基準化する
- りんごのサイズを平均0、分散1に揃える
- バナナも同様に個別に揃える
- 白色化:箱詰めするときの詰まり具合(相関)も考える
- バナナとりんごが「同じ方向に並びやすい」なら、回転させて独立な方向に並べる
→ これが白色化の回転のイメージです!
白色化の活用例
分野 | 白色化が使われる場面 |
---|---|
機械学習 | PCA、独立成分分析(ICA)、クラスタリングの前処理 |
画像処理 | CNNの入力画像を前処理(ゼロ平均・白色化) |
音声処理 | 雑音を除去する前にスペクトルを白色化 |
注意点とデメリット
- 計算コストが高い(共分散行列の固有値分解など)
- ノイズが強調されるリスク(成分によっては、白色化で大きくなりすぎる)
- 解釈が難しくなる(元の特徴量の意味が失われやすい)
まとめ
項目 | 内容 |
---|---|
名前の由来 | 白色雑音(あらゆる周波数が独立・等分散)から |
定義 | 分散=1、相関=0 に変換する処理 |
標準化との違い | 標準化は「スケール統一」、白色化は「相関除去+スケール統一」 |
使用場面 | 次元削減・独立成分分析・画像や音声の前処理など |
今後の学習の指針
白色化を理解したら、次は以下の内容にもチャレンジしてみましょう!
- PCAと白色化の関係(PCA whitening, ZCA whitening)
- 実際に画像や音声データを白色化してみる
- ホワイトノイズ・カラードノイズとの違い
- 標準化・正規化・白色化の違いを整理する
「白色化」という名前の背後にある物理的・統計的な意味をしっかり理解すれば、機械学習の前処理の“なぜやるのか?”がより深く納得できるようになりますよ!
生成AI研修のおすすめメニュー
投稿者プロフィール

- 代表取締役
-
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。