YOLO「You Only Look Once(一度見るだけで良い)」
こんにちは。ゆうせいです。
これまでR-CNNからFaster R-CNNまで、物体検出がどんどん速くなっていく様子を見てきましたね。でも、Faster R-CNNでさえ「まず候補を探して、次に中身を当てる」という2段階の手順(2ステージ検出)を踏んでいました。
今回ご紹介するYOLOは、その常識を根底から覆します。名前の通り「You Only Look Once(一度見るだけで良い)」、つまり画像を一目見ただけで、場所と種類を同時に一発で当ててしまう超速の技術なんです!
ステップ1:画像を「グリッド」で区切る
YOLOの最大の特徴は、入力画像をチェス盤のような格子状(グリッドセル)に分割することです。
例えば、画像を の計49個のマス目に分けたとしましょう。YOLOはこの一つひとつのマス目に対して、「お前の担当エリアに物体の中心はあるか?」と一斉に問いかけます。
ステップ2:各セルが「予測」を同時に叫ぶ
分割された各マス目(セル)は、以下の情報を同時に予測します。
- 物体の枠(バウンディングボックス)の形と位置
- その枠の中に「何か」がいる確率(信頼度スコア)
- それが「何」であるかという確率(クラス確率)
これまでの手法が「怪しい場所を切り抜いてから考える」というリレー形式だったのに対し、YOLOは「全員一斉に、自分の担当エリアの結果を報告せよ!」という一斉投票形式なのです。
専門用語を高校生向けに解説!
- グリッドセル:画像を分割した小さな正方形のマス目です。
- バウンディングボックス:物体を囲む四角い枠のことです。
- 信頼度スコア:その枠に「背景ではなく、本当に何か物体が入っているか」という自信の度合いです。
ステップ3:重複を削る「NMS」
一斉に予測をすると、一つの物体に対して複数のマス目が「俺の担当だ!」「いや俺だ!」と枠を出してしまうことがあります。例えば、一匹の犬に対して5つも6つも枠が表示されたら困りますよね。
そこで、Non-Maximum Suppression(NMS)という後処理を行います。
これは、重なり合っている枠の中から、最も信頼度が高いものだけを残し、それ以外をバッサリ消し去る作業です。これにより、スッキリとした検出結果が得られます。
メリット
- 圧倒的なスピード:1秒間に45フレーム以上(最新版ならもっと!)処理できるため、動画に対してリアルタイムで物体検出が可能です。
- 背景の誤検知が少ない:画像全体を一度に見て判断するため、「机の上の物体」なのか「空飛ぶ物体」なのかといった周囲の状況(コンテキスト)を理解した上で判定できます。
デメリット
- 小さい物体に弱い:画像を格子状に区切るため、一つのマス目に複数の小さな物体が密集していると、うまく見分けられないことがあります。
- 位置の正確さ:Faster R-CNNのような2段階の手法に比べると、枠の位置がわずかにズレやすい傾向があります。
数式で見る「一度に見る」仕組み
YOLOが一度に予測する情報の数は、計算式で表すと以下のようになります( はグリッド数、
は各セルが予測する枠の数、
は分類するクラス数です)。
1つの画像あたりの予測データ数 =
※ という数字は、枠の座標
と信頼度スコアを指しています。
この膨大な情報を、たった1回の計算(フォワードパス)で導き出してしまうのがYOLOの凄さなのです!
これからの学習の指針
YOLOは2015年に登場して以来、v2、v3……そして最新のv11に至るまで、驚異的なスピードで進化を続けています。
- 初期のYOLO:とにかく速い!でも小さいものに弱い。
- 中期のYOLO(v3など):複数のスケールで見るようになり、小さい物体も得意に。
- 最新のYOLO(v8〜v11):速度と精度の両方で、かつての2ステージ手法(Faster R-CNNなど)を圧倒。
物体検出の歴史は「どうやって無駄を省き、速く正確にするか」の試行錯誤の歴史です。今回のYOLOを理解したことで、あなたはその最先端にたどり着きました!
次はぜひ、実際に自分のパソコンやGoogle ColabでYOLOを動かしてみる「実践」に挑戦してみてください。数行のコードで、自分のカメラに映った物体をリアルタイムで検知できる感動を味わえますよ!
一目見るだけで全てを把握する「YOLO」のスピード感、伝わりましたか?
もし興味があれば、今度は「どうやって物体の形を細かく切り抜くのか(セグメンテーション)」についてもお話しできますが、いかがでしょうか?
セイ・コンサルティング・グループでは新人エンジニア研修のアシスタント講師を募集しています。
投稿者プロフィール
- 代表取締役
-
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。
学生時代は趣味と実益を兼ねてリゾートバイトにいそしむ。長野県白馬村に始まり、志賀高原でのスキーインストラクター、沖縄石垣島、北海道トマム。高じてオーストラリアのゴールドコーストでツアーガイドなど。現在は野菜作りにはまっている。