この戦略はどれ? 探索・活用当てゲーム

あなたは限られた回数だけスロットマシンを引くことができます。見た目は同じですが、マシンごとに当たりの確率が違います。
下のシミュレーションの動きを見て、AIがどの戦略でマシンを選んでいるか当ててみましょう!

多腕バンディット問題シミュレーション

解説: 最善手を見つけるための3つの戦略

戦略 内容 注目ポイント(ゲームのヒント)
活用オンリー (Greedy) これまでの経験で最も勝率が高いと「思われる」マシンだけを引き続ける。 同じマシンばかり選択し続ける傾向が強い。グラフの報酬は早い段階で頭打ちになりやすい。
探索オンリー (Random) 常にランダムにマシンを選ぶ。過去の経験は考慮しない。 全てのマシンがまんべんなく選ばれる。報酬グラフは緩やかに上昇し続ける
ε-greedy法((イプシロン・グリーディ法)) 基本は「活用」だが、時々(確率εで)ランダムな「探索」を行う賢い戦略。 序盤は色々試し、途中から特定のマシンに収束していく。最終的に最も高い報酬を得ることが多い。