Stable DiffusionやMidjourneyなどの画像生成AIは、どのようにして無から画像を「創造」するのでしょうか?その秘密は「一度壊してから、直し方を学ぶ」という拡散モデルのアイデアにあります。
元画像 (t=0)
現在の画像 (t)
まず、元画像に少しずつランダムなノイズを加えていきます。このステップを何百回も繰り返すと、画像は最終的にただのノイズになります。
スライダーを右に動かして、画像が徐々にノイズに変わっていく様子(拡散していく様子)を見てみましょう。この過程は単純な計算で、AIは必要ありません。
ここがAIの出番です。AIの目的は、ノイズが加えられた画像を見て、「どのようなノイズが加えられたか」を予測することです。この「ノイズ予測」を完璧にマスターするように学習します。
スライダーを左に動かして、AIがノイズを取り除いて画像を復元する様子をシミュレーションしてみましょう。実際の画像生成では、完全なノイズからスタートし、この「ノイズ除去」ステップを繰り返すことで、全く新しい画像が生まれるのです。