探索 (Exploration) vs 活用 (Exploitation)
多腕バンディット問題
行動戦略
活用オンリー (Greedy)
探索オンリー (Random)
ε-greedy法
探索確率 ε =
0.10
学習開始
解説: 最善手を見つけるためのジレンマ
強化学習のエージェントは、常に「今一番良いと信じている手(
活用
)」と「まだ知らない、もっと良い手(
探索
)」のどちらを選ぶかというジレンマに直面します。このデモは、そのバランスの重要性を示しています。
活用オンリー (Greedy)
戦略:
これまでの経験で最も勝率が高いと「思われる」マシンだけを引き続けます。
結果:
もし最初に運悪く当たりの少ないマシンで勝ってしまうと、本当はもっと良いマシンがあるにも関わらず、それに気づく機会を永遠に失ってしまいます。グラフの報酬は早い段階で頭打ちになります。
探索オンリー (Random)
戦略:
常にランダムにマシンを選びます。
結果:
すべてのマシンを平等に試すため、最終的にはどのマシンが最も当たりやすいかを発見できます(推定勝率が真の確率に近づく)。しかし、その知識を「活用」しないため、報酬は最大化されません。
ε-greedy法
戦略:
2つの戦略を賢く組み合わせます。基本的には「活用」を行いますが、確率`ε`(イプシロン)で、時々ランダムに「探索」を行います。
結果:
`ε`を適切に設定すると(通常は0.1などの小さい値)、エージェントは最初は広く探索して最も良いマシンを見つけ出し、学習が進むにつれてそのマシンを重点的に活用するようになります。結果として、長期的には最も高い報酬を得ることができます。`ε`が0なら「活用オンリー」、1なら「探索オンリー」と同じになります。