Stable DiffusionやMidjourneyなどが使っている拡散モデル
こんにちは。ゆうせいです。
これまでGANやStyleGANといった「偽札作りと警察」のような対抗戦で画像を生成する技術を見てきましたね。しかし、今まさに世界を席巻している画像生成AI(Stable DiffusionやMidjourneyなど)の多くは、それらとは全く異なる仕組みを使っています。
それが、拡散モデル(Diffusion Model)です。
霧の中から少しずつ形が現れるような、あるいは彫刻家が石の塊から像を削り出すような、非常にロマンチックで強力なアルゴリズムなんですよ!
逆転の発想!「壊す」ことから「作る」ことを学ぶ
拡散モデルの面白いところは、画像を「壊すプロセス」をまず定義することから始まります。
ステップ1:順拡散過程(画像を壊す)
綺麗な写真に、少しずつ砂嵐のような「ノイズ」を混ぜていきます。これを何度も繰り返すと、最終的には元の面影が全くない、ただのノイズ(砂嵐)になってしまいます。
ステップ2:逆拡散過程(画像を直す)
ここからがAIの出番です。AIは「今のノイズをほんの少しだけ取り除いて、1ステップ前の状態に戻すにはどうすればいいか?」を徹底的に学習します。
この「ノイズを消す技術」を極めることで、AIは完全な砂嵐から、この世に存在しない美しい画像を浮かび上がらせることができるようになるのです。
専門用語を高校生向けに解説!
- ノイズ:テレビの砂嵐のような、無意味な情報の集まりです。
- デノイジング:ノイズを取り除く作業のことです。拡散モデルの心臓部ですね。
- U-Net(ユーネット):ノイズを予測するために使われる、特殊な形をしたニューラルネットワークの構造です。
ここで一つ質問です。彫刻家が「ただの岩」から龍を彫り出すとき、岩の中に龍の姿を見ていると言われます。拡散モデルにとっての「岩」はノイズ、「龍」はあなたが入力したプロンプト(言葉)です。AIはノイズの中に、あなたの言葉に合致する姿を見出そうとするのです。
メリットとデメリット
メリット
- 多様性と高品質:GANで起きやすかった「いつも同じような画像しか作れない」という問題(モード崩壊)が起きにくく、非常にバリエーション豊かな画像が作れます。
- 安定性:学習が非常に安定しており、計算が爆発するようなトラブルが少ないのが特徴です。
- 言葉での操作:CLIPという技術と組み合わせることで、「猫が宇宙でピアノを弾いている」といった複雑な指示にも正確に応えられます。
デメリット
- 計算時間の長さ:1枚の画像を作るために、ノイズを何度も(数十回〜数百回)取り除く計算を繰り返すため、GANに比べると生成に時間がかかります。
数式で見る「ノイズの予測」
拡散モデルが学習するのは、画像そのものではなく「今、どれくらいのノイズが乗っているか」という推定値です。
取り除いた後の画像 = 現在のノイズ画像
学習した係数
AIが予測したノイズ
この計算を繰り返すたびに、画像はどんどん鮮明になっていきます。数式で見ると、引き算によって「余計なもの(ノイズ)」を削ぎ落としていることがわかりますね!
これからの学習の指針
拡散モデルの基本がわかったら、次はこれを効率化した「潜在拡散モデル(Latent Diffusion Model)」を調べてみてください。
- 潜在空間での拡散:巨大な画像をそのまま扱うのではなく、情報をギュッと圧縮した「潜在空間」でノイズを取り除くことで、家庭用PCでも動くほど軽量化した技術です。これがStable Diffusionの正体です。
- ControlNet:生成される画像のポーズや構図を、人間が線画などで直接指定する技術です。
砂嵐の中から名画が生まれる。この魔法のような技術の裏側には、地道な「ノイズ除去」の積み重ねがあったんですね。
この「少しずつ形にする」という考え方、日常生活の何かに似ていると思いませんか?
次は、この拡散モデルを劇的に速くした「Latent Diffusion(潜在拡散)」の画期的なアイデアについて深掘りしてみましょうか?
セイ・コンサルティング・グループでは新人エンジニア研修のアシスタント講師を募集しています。
投稿者プロフィール
- 代表取締役
-
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。
学生時代は趣味と実益を兼ねてリゾートバイトにいそしむ。長野県白馬村に始まり、志賀高原でのスキーインストラクター、沖縄石垣島、北海道トマム。高じてオーストラリアのゴールドコーストでツアーガイドなど。現在は野菜作りにはまっている。