この戦略はどれ？探索・活用当てゲーム

あなたは限られた回数だけスロットマシンを引くことができます。見た目は同じですが、マシンごとに当たりの確率が違います。
下のシミュレーションの動きを見て、AIがどの戦略でマシンを選んでいるか当ててみましょう！

多腕バンディット問題シミュレーション

戦略	内容	注目ポイント（ゲームのヒント）
活用オンリー (Greedy)	これまでの経験で最も勝率が高いと「思われる」マシンだけを引き続ける。	同じマシンばかり選択し続ける傾向が強い。グラフの報酬は早い段階で頭打ちになりやすい。
探索オンリー (Random)	常にランダムにマシンを選ぶ。過去の経験は考慮しない。	全てのマシンがまんべんなく選ばれる。報酬グラフは緩やかに上昇し続ける。
ε-greedy法(（イプシロン・グリーディ法）)	基本は「活用」だが、時々（確率εで）ランダムな「探索」を行う賢い戦略。	序盤は色々試し、途中から特定のマシンに収束していく。最終的に最も高い報酬を得ることが多い。