VGGが切り開いた深いネットワークの世界!層を重ねる美学を読み解く

こんにちは。ゆうせいです。

前回はAI界の革命児、AlexNetについてお話ししましたね。ジェフリー・ヒントン教授たちの活躍に興奮した方も多かったのではないでしょうか。

今回は、そのAlexNetのわずか2年後、2014年に登場して世界を驚かせたVGGというモデルについて解説します。今のAIが「より深く、より複雑に」進化していくための決定的なヒントをくれたのが、このVGGなんです!

結局、VGGは何がすごかったの?

結論から言いましょう。VGGの新しさは、そのシンプルすぎるほどの潔さにあります。

AlexNetは、大きなフィルターを使ったり小さなフィルターを混ぜたりと、いわば「色々な道具を詰め込んだ欲張りセット」のような構造でした。対してVGGは、「小さなフィルターを、とにかく深く積み上げる」という一貫したルールで挑んだのです。

みなさんは、料理をするときに「大きな包丁で大雑把に切る」のと「小さなナイフで丁寧に何度も刻む」の、どちらが繊細な形を作れると思いますか。VGGは迷わず後者を選んだわけです。

3x3の魔法:小さく重ねるメリット

VGGの最大の特徴は、 3 \times 3 という非常に小さなサイズのフィルターだけを使ったことです。専門用語では、これを畳み込み層と呼びます。

なぜ、わざわざ小さくしたのでしょうか。

実は、 3 \times 3 のフィルターを3回重ねて計算すると、 7 \times 7 の大きなフィルター1回分と同じ広さ(受容野)を見ることができるんです!

これには2つの大きなメリットがあります。

  • 表現力がアップする:層を重ねるごとに「活性化関数(前回お話ししたReLUですね!)」を何度も通ることになります。これにより、データの特徴をより複雑に、非線形に捉えることができるようになります。
  • 計算が効率的になる:意外かもしれませんが、大きなフィルター1つよりも、小さなフィルターを複数重ねる方が、学習に必要なパラメーターの数は少なくて済むのです。

例えるなら、1枚の大きな布を折って複雑な形を作るよりも、小さな折り紙を何枚も重ねて精巧な作品を作るようなイメージですね。

16層と19層:深さの時代の幕開け

VGGには、主にVGG16とVGG19という2つのバリエーションがあります。数字は層の深さを表しています。

AlexNetが8層だったのに対し、VGGは一気に16層、19層と深くなりました。

「層を深くすればするほど賢くなる」

今では当たり前に聞こえるこの考え方を、誰が見ても納得する形で証明したのがVGGでした。ただし、深くすればするほど計算量は増え、学習には時間がかかるようになります。

VGGのメリットとデメリット

ここでVGGの特徴を整理してみましょう。

項目メリットデメリット
設計の美しさ全ての層が共通のルールで作られており、非常に分かりやすいシンプルゆえに無駄な計算も多い
汎用性特徴を捉える力が強く、他のAIの土台(転移学習)として今でも人気モデルのファイルサイズが非常に大きく、メモリを圧迫する
認識精度AlexNetを大きく上回る精度を達成パラメーター数が1億個を超え、動かすのが大変

算数の視点から見るVGGの美学

VGGのフィルターサイズが 3 \times 3 であることの恩恵を、少し計算してみましょう。

例えば、 7 \times 7 のフィルター1つのパラメーター数は、チャンネル数を C とすると

パラメーター数 = 7 \times 7 \times C \times C = 49 C^{2}

となります。一方、 3 \times 3 を3枚重ねた場合は

パラメーター数 = 3 \times (3 \times 3 \times C \times C) = 27 C^{2}

となります。

なんと、同じ範囲を見ているのに、計算の手間を 49 から 27 へ、およそ半分近くまで減らせているのです!この効率の良さこそが、深いネットワークを実現する鍵でした。

転移学習にVGGが使われるわけ

実はVGGには、最新のモデルたちも敵わない「転移学習の王様」としての圧倒的な魅力があるんです!今日はその秘密を、講師の視点で深掘りしていきます。

そもそも「転移学習」って何だっけ?

転移学習とは、一言で言えば「天才の脳を借りて、自分好みに少しだけ書き換える」という魔法のようなテクニックです。

ゼロからAIに「犬と猫の違い」を教えるのは大変ですが、すでに「世界のあらゆるもの」を見て学習した天才AIを連れてきて、最後の判断の部分だけを「犬か猫か」に書き換えれば、一瞬で賢いAIが完成します。

みなさんも、プロのギタリストが新しくウクレレを始めるとき、初心者より圧倒的に早く上達するのを想像できますよね。それが転移学習です!

VGGが「王様」である3つの理由

では、なぜ数あるモデルの中でVGGが選ばれ続けるのでしょうか。

1. 抽出される特徴が「素直」で使いやすい

VGGは 3 \times 3 のフィルターを愚直に積み重ねただけの、非常にシンプルな構造をしています。この「シンプルさ」が、実は大きな武器なんです。

VGGが画像から抜き出す特徴は、人間が見ても「あ、これは輪郭を捉えているな」「これは模様を見ているな」と納得できるほど、非常に素直で汎用性が高いのです。

例えるなら、VGGは「どんな料理にも合う究極の出汁」のようなもの。和食にも洋食にもアレンジが効くので、どんな新しいタスクにも馴染みやすいわけです!

2. どこを切り取っても「目」として機能する

AIのネットワークは、前半が「画像を見る目(特徴抽出)」、後半が「それが何かを答える脳(分類器)」という役割分担をしています。

VGGはこの「目」の部分が非常に強力です。新しいAIを作るとき、VGGの「目」だけを引っこ抜いてきて自分のAIにくっつけるだけで、驚くほど高い精度が出せます。

これを専門用語で特徴抽出器としての利用と呼びます。

3. 歴史が長く、情報がどこにでもある

「王様」である最大の理由は、実はこれかもしれません。世界中のエンジニアがVGGを使い倒してきたため、使い方のコツやトラブル解決法がネット上に溢れています。

何か困ったことがあっても、すぐに答えが見つかる。この安心感は、開発現場では何物にも代えがたい価値なんです!

次の学習へのステップ

VGGの登場によって、AIの世界は「深さ(Depth)」を競う時代へと突入しました。

しかし、層を深くしすぎると、今度は「学習が途中で消えてしまう(勾配消失)」という新たな壁にぶつかることになります。その壁を魔法のようなアイデアで突破したのが、次に登場するResNetというモデルです。

みなさん、VGGが教えてくれた「小さな積み重ねが大きな力を生む」という哲学、面白いと思いませんか。

セイ・コンサルティング・グループでは新人エンジニア研修のアシスタント講師を募集しています。

投稿者プロフィール

山崎講師
山崎講師代表取締役
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。

学生時代は趣味と実益を兼ねてリゾートバイトにいそしむ。長野県白馬村に始まり、志賀高原でのスキーインストラクター、沖縄石垣島、北海道トマム。高じてオーストラリアのゴールドコーストでツアーガイドなど。現在は野菜作りにはまっている。