ターゲットネットワークとは？新人エンジニア向けにやさしく解説

2025年7月8日 2025年7月8日山崎講師

山崎講師

こんにちは。ゆうせいです。
今回は、強化学習（Reinforcement Learning）でモデルの学習を安定化させるために重要な仕組み、ターゲットネットワーク（Target Network）について解説します！

結論！ターゲットネットワークとは？

Q学習（特に DQN）で使われる「目標値計算用の別ネットワーク」
学習の不安定さを防ぐために、一時的に固定したQ関数を使って「ターゲット値」を計算します。

名前の由来：なぜ「ターゲット」？

target（ターゲット）＝目標・的

強化学習における「目標」とは、「今後の報酬の見込み値（Q値）」のこと。
学習時に、Q値の更新先となる目標（target）を計算するネットワークだから、
ターゲットネットワークと呼ばれています。

Q学習におけるターゲット値とは？

Q学習の基本的な更新式は次の通りです：

$ Q(s, a) \leftarrow Q(s, a) + \alpha \left( r + \gamma \max_{a'} Q(s', a') - Q(s, a) \right) $

この中の $r + \gamma \max_{a'} Q(s', a')$ が「目標値（ターゲット）」です。

DQNではこのターゲット部分を別ネットワーク Q' で計算します：

$ \text{Target} = r + \gamma \max_{a'} Q'(s', a') $

なぜ必要？ → 不安定さを防ぐため！

ニューラルネットでQ値を近似すると、
学習中に自分の出力（Q値）を自分で使って更新する構造になります。

すると：

Q値が変わる
ターゲット値も変わる
→ 学習が発散・不安定になりやすい

これを防ぐために、「一時的に固定されたネットワーク（=ターゲットネット）」を使って
安定した目標を計算するんです。

更新の仕組み（図と式）

ターゲットネットワークは、メインのQネットワークとは別で保持され、
定期的に更新されるか、徐々に更新されます。

ハード更新（一定間隔でコピー）

$ \theta_{\text{target}} \leftarrow \theta_{\text{main}} $

ソフト更新（Polyak Averaging）

$ \theta_{\text{target}} \leftarrow \tau \theta_{\text{main}} + (1 - \tau) \theta_{\text{target}} \quad (\tau \ll 1) $

$\theta_{\text{main}}$ ：メインQネットのパラメータ
$\theta_{\text{target}}$ ：ターゲットネットのパラメータ
$\tau$ ：更新率（例：0.001）

たとえ話で理解！

ターゲットネットワークは「冷静な先生」
本番ネットワークが「元気すぎる生徒」だとして、
生徒が暴走しないように、「先生が出す目標値（ターゲット）」を基準に学習します。

使われている代表的手法

手法	ターゲットネットの使い方
DQN	Q値を安定化するために導入
Double DQN	Qとmaxの分離で過大評価を防ぐ
DDPG	アクター・クリティックの両方にターゲットネットを導入
TD3	さらなる安定性のために2つのターゲットネットを使用

覚え方のコツ！

✅ ターゲットネットワークは「目標値を出す静かなガイド役」

Qの学習を安定させるための「計算専用ネットワーク」
「目標（target）を定めるネット」だからターゲットネット！

h2: 今後の学習の指針

ここまで理解できたら、次は以下の学習にも進んでみましょう：

DQNの実装を読み解いて、ターゲットネットがどう更新されているかを確認する
Double DQN や DDPG、TD3 の仕組みを比較する
ターゲットネットを更新しないとどうなるか？ 実験で体感してみる！

強化学習では、学習を安定させる工夫がとても重要です。
ターゲットネットワークは、その基本中の基本！
ぜひ名前・数式・役割をセットで覚えて、使いこなしていきましょう！

生成AI研修のおすすめメニュー

投稿者プロフィール

山崎講師代表取締役

セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します！
この記事に間違い等ありましたらぜひお知らせください。