オプティマイザ比較: SGD vs Adam

損失曲面の選択

操作方法:
- おすすめの地点(●)か、好きな場所をクリックして学習を開始
- ドラッグで視点回転
- スクロールでズーム

凡例

SGD
Adam

曲面をクリックしてください

解説: 賢い坂の下り方

オプティマイザ（最適化手法）は、深層学習において損失関数という「坂」をいかに賢く下るかを決めるアルゴリズムです。このデモは、代表的な2つのオプティマイザの動きの違いを3Dで可視化したものです。

■ SGD (Stochastic Gradient Descent:確率的勾配降下法)

最も基本的な手法。現在地の「傾き（勾配）」だけを見て、最も急な方向にまっすぐ進みます。シンプルですが、2つの大きな弱点があります。

局所最適解の罠: 一番深い谷底（大域的最適解）ではなく、途中の浅い谷（局所最適解）にハマると、そこが一番低いと勘違いして動けなくなります。
鞍点(あんてん)での停滞: 谷底ではないが、傾きがほぼゼロになる平坦な場所（鞍点）でも、身動きが取れなくなりがちです。

■ Adam (Adaptive Moment Estimation)

「慣性」の考えに加え、「過去の勾配の大きさ」も考慮する、非常に高性能で現在最も広く使われている手法の一つです。

適応的な学習率: 過去の勾配の大きさに応じて、パラメータごとに学習の歩幅（学習率）を自動で調整します。急な坂では慎重に、緩やかな坂では大胆に進むことができます。
利点: 安定して高速に学習が進み、多くの場合で良い性能を発揮します。