CNNの進化の歴史：AlexNetからEfficientNetまでを一気に解説！

2025年7月15日 2026年2月1日山崎講師

山崎講師

こんにちは。ゆうせいです。

今回はCNN（畳み込みニューラルネットワーク：Convolutional Neural Network）の歴史をたどってみましょう。

CNNは画像認識をはじめ、顔認識や医療画像診断、自動運転のカメラなど、今ではあらゆる場面で使われています。

でも、「CNNっていつからあって、どう進化してきたの？」と疑問に思ったことはありませんか？
この問いにお答えするべく、代表的なアーキテクチャを「進化の系譜」として紹介していきます。

高校生でも理解できるよう、できるだけやさしく、でもしっかりと本質をつかめるように解説します！

CNNとは？

まず簡単におさらいしておきましょう。

CNNとは、画像を処理するために特化したニューラルネットワークの一種で、特徴的なのが「畳み込み層（Convolutional Layer）」です。

これは画像の「形」や「模様」を捉えるための計算手法で、人間の視覚野（脳の中の視覚処理領域）の仕組みにヒントを得ています。

CNNの強みは以下のとおりです：

入力画像から自動で特徴を抽出できる
空間情報（隣り合うピクセルの関係）を活かせる
パラメータ数が少なく、学習効率が高い（全結合ネットワークと比べて）

CNNの歴史を表で俯瞰しよう！

まずは代表的なモデルの一覧をざっと見てみましょう。

年	モデル名	特徴	精度向上の工夫
2012	AlexNet	CNN復活の火付け役	ReLU導入・GPU活用
2014	VGG	シンプルで深い構造	同じサイズのConvを積み重ね
2014	GoogLeNet (Inception)	幅を持たせる	マルチスケール処理
2015	ResNet	超深層学習を可能に	残差接続（Residual Connection）
2017	DenseNet	全結合的な接続	各層をすべての前層に接続
2018	NASNet	構造自動設計	Neural Architecture Search
2019	EfficientNet	精度と効率の両立	Compound Scaling

それでは、それぞれのモデルについて一つずつ、もう少し詳しく見ていきましょう！

① AlexNet（2012年）

開発者：Alex Krizhevsky（カナダの大学院生）
背景：ImageNetコンペ（ILSVRC）で圧倒的勝利
特徴：
- ReLU（活性化関数）を使用
- GPUによる高速学習
- ドロップアウト（過学習対策）導入

なぜ革命的だったのか？

当時主流だったSVMや手作りの特徴量では、トップ5誤差率が25%前後。
AlexNetは15%台という衝撃の結果を出しました。

つまり、「ディープラーニングが本当に使える！」と証明した最初の大事件だったのです。

② VGG（2014年）

開発者：Oxford大学とGoogle DeepMind
構造：16層または19層の深いネットワーク（VGG16, VGG19）
特徴：
- 全て3×3のフィルタを使う
- 畳み込みとプーリングを交互に積むだけのシンプル構造

メリット・デメリット

構造が単純なので、再利用しやすい
ただし、パラメータ数が多くて重い！

③ GoogLeNet（Inception v1 / 2014年）

開発者: Google
構造: Inception Module（インセプション・モジュール） を基本単位として構成
主な特徴:
- マルチスケール処理: 異なるサイズ（1×1, 3×3, 5×5）の畳み込み層と最大プーリングを並列に配置し、多様な広がりを持つ特徴を同時に抽出。
- ボトルネック層（1×1畳み込み）: 重い計算（3×3や5×5）の前に「1×1畳み込み」を挿入することで、チャンネル数を削減（次元圧縮）。計算コストを抑えつつ層を深くすることに成功。
- Global Average Pooling (GAP) の採用: 出力層の手前で、各チャンネルの全画素の平均値をとってベクトル化する手法。従来の「全結合層」を排除することで、パラメータ数を劇的に削減し、過学習を抑制。

🌟 何が革新的だったのか？

Network in Network: 「ネットワークの中に小さなネットワーク（モジュール）を作る」という設計思想を定着させました。いう、極めて高い効率性を実現したのです。

「深さ」と「広さ」の両立: 従来の直列構造ではなく、分岐構造（並列処理）を取り入れることで、ネットワークを深く・広くすることに成功しました。

圧倒的な効率性: これほど複雑な構造を持ちながら、GAPや1×1畳み込みの工夫により、パラメータ数はVGG16の約1/12程度に抑えられています。

④ ResNet（2015年）

開発者：Microsoft Research
構造：152層以上もの超深層ネット
特徴：
- 残差接続（skip connection）を導入
- Identity mappingで勾配消失を防ぐ

残差接続とは？

入力 $x$ に対して、出力を $F(x) + x$ とする接続方式。

これは、「今の層が学習すべきなのは、変化量だけでよい」という発想で、非常に学習が安定します。

$\text{Output} = F(x) + x$

結果

ResNetは非常に深くしても性能が落ちないという画期的な発見をもたらしました。

⑤ DenseNet（2017年）

開発者：Cornell Universityなど
構造：ResNetよりさらに密につながっている
特徴：
- 各層が前すべての層と結合（密結合）
- パラメータ数を抑えながら高精度

式で表すと？

$x_l = H_l([x_0, x_1, ..., x_{l-1}])$

つまり、今の層はこれまでのすべての出力を入力として受け取るという設計です。

⑥ NASNet（2018年）

開発者：Google
アプローチ：自動設計（AutoML）
特徴：
- 最適な構造を人間ではなくAI自身が設計
- 強力だが、計算コストが膨大

⑦ EfficientNet（2019年）

開発者：Google Brain
特徴：
- 精度・パラメータ数・速度のバランスが最高
- Compound Scalingという独自のスケーリング手法を使用

Compound Scalingとは？

従来の手法は次のどれか1つだけを拡張：

Depth（層の深さ）
Width（層の幅）
Resolution（画像の大きさ）

EfficientNetではこの3つをバランスよく拡張します。

ビジュアルで比較しよう

以下は、各モデルのパラメータ数 vs 精度の分布例です（概念図）：

|                             ● EfficientNet
|                         ●
|                     ●
|             ● DenseNet
|         ● ResNet
|     ● GoogLeNet
| ● VGG
|● AlexNet
|------------------------------------------
      少  パラメータ数  多

EfficientNetは、少ないパラメータで非常に高い精度を出すことができる究極のバランス型モデルなんです！

まとめ

CNNの歴史を振り返ると、以下のような流れが見えてきます。

AlexNetでディープラーニングがブレイク
VGGで構造を統一し
GoogLeNetで並列構造を導入
ResNetで深層化の壁を突破
DenseNetで接続の密度を強化
NASNetでAIに構造設計を任せ
EfficientNetで効率と性能の最適解を得た

今後の学習の指針

CNNの基礎と歴史を学んだあとは、以下に進むのがオススメです。

実際にKerasやPyTorchで各モデルを使ってみる
モデルのパラメータ数・速度・精度を比較実験
転移学習（Transfer Learning）で実用タスクへ応用
Vision Transformerなど、CNN以外の画像モデルにも触れてみる

AIの進化は速いですが、こうした「王道の系譜」を知っていると、新しい技術もずっと理解しやすくなりますよ！

【追記】第2章：CNN vs Transformerの戦い（2020年〜現在）

「EfficientNetで究極のバランスに到達した！これでCNNの歴史は上がりだ！」

……と思いきや、AIの世界はそんなに甘くありませんでした。2020年以降、画像認識の世界は「革命」と「逆襲」が入り乱れる、まさに戦国時代に突入したのです。

ここからは、EfficientNet以降の「現代の主役たち」を一気に紹介します。

⑧ Vision Transformer (ViT) の衝撃（2020年）

開発者：Google Research
キャッチコピー：「CNNを使わなくても、画像認識はできる」

2020年、AI業界に激震が走りました。

自然言語処理（翻訳やチャットボット）で最強の座にあった「Transformer」という技術を、ほぼそのまま画像に適用したVision Transformer (ViT)が登場したのです。

仕組み：CNNが「画像を端から畳み込んで特徴を探す」のに対し、ViTは「画像を16×16のパッチ（断片）に切り刻み、それらの『関係性』を一気に見る」というアプローチを取りました。
結果：なんと、長年王者だったCNNの精度を上回ってしまったのです。「もはや畳み込み（Convolution）は不要なのか？」という議論が巻き起こりました。

⑨ EfficientNetV2（2021年）

開発者：Google
キャッチコピー：「実用性の鬼、さらに高速化」

ViTが話題になる一方で、現場では「EfficientNetは精度が高いけど、学習が遅いしメモリを食う」という悩みが生まれていました。そこで登場した正統進化版がV2です。

改良点：初期の層で使われていた処理を、より現代的なハードウェア（GPU/TPU）で高速に動くFused-MBConvという構造に置き換えました。
成果：無印のEfficientNetよりも学習スピードが最大4倍になり、パラメータ数も削減。現在のKaggle（データ分析コンペ）や実務では、このV2がデファクトスタンダードとして使われることが多いです。

⑩ ConvNeXt（2022年）

開発者：Facebook AI Research (Meta)
キャッチコピー：「CNNの逆襲」

「ViTが強いのは、構造が優れているからか？それとも学習のさせ方が現代的だからか？」

この疑問に挑んだのがConvNeXtです。

やったこと：昔ながらのCNN（ResNet）をベースに、「ViTで使われている最新のテクニック」を全部盛り込みました。
- 大きなカーネルサイズ（7x7）を使う
- 活性化関数をReLUからGELUに変える
- 正規化をBatchNormからLayerNormに変える
結論：「CNNでも、ちゃんと現代的に設計すればViTに勝てる！」純粋なCNNでありながらViTを超える精度と速度を叩き出し、CNNの底力を世界に見せつけました。

【現代編まとめ】結局、今は何を使えばいいの？

2020年以降の歴史をまとめると、以下のようになります。

年代	モデル	出来事
2020	ViT	「画像もTransformerでいいじゃん」革命
2021	EfficientNetV2	「実務で使うなら俺だ」高速化と効率化
2022	ConvNeXt	「CNNはまだ死んでない」現代化改修で逆襲

学習の指針：

これからの時代は、「CNN（EfficientNetV2, ConvNeXt）」と「Transformer（ViT, Swin Transformer）」の両方の特性を知っておく必要があります。

データが少ない・計算資源が限られる → CNN（EfficientNetV2など）が依然として有利
超大量のデータがある・大規模モデルを作りたい → ViT系が有利

この「二大巨頭」が切磋琢磨することで、AIの目は人間の視覚を超えつつあるのです。

生成AI研修のおすすめメニュー

投稿者プロフィール

山崎講師代表取締役

セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します！
この記事に間違い等ありましたらぜひお知らせください。

学生時代は趣味と実益を兼ねてリゾートバイトにいそしむ。長野県白馬村に始まり、志賀高原でのスキーインストラクター、沖縄石垣島、北海道トマム。高じてオーストラリアのゴールドコーストでツアーガイドなど。現在は野菜作りにはまっている。