YOLOv2の革新:より正確で高速な物体検出の実現
2016年に発表された論文「YOLO9000: Better, Faster, Stronger」は、物体検出モデルの進化を象徴する重要な研究である。この論文で提案されたYOLOv2は、YOLOv1の課題を解決するための多岐にわたる改良を実施した。主な問題は、位置推定の誤差(Localization Error)と低めの再現率(Recall)だった。これらの課題を克服するため、著者たちはバッチ正規化(Batch Normalization)を導入し、学習の安定化と収束速度の向上を実現。これによりmAP(平均精度)は63.4%から65.8%へと改善された。さらに、画像サイズの変更による訓練の不整合を解消するため、ImageNetを448×448で事前学習した後に、PASCAL VOCの検出タスクで再学習するという段階的なファインチューニング手法を採用。この変更によりmAPは65.8%から69.5%へと上昇した。 YOLOv1では1グリッドセルあたり2つの境界ボックスを予測していたが、YOLOv2ではアノテーションボックス(Anchor Box)を導入。K-meansクラスタリングを用いて、データセット内の物体サイズの分布に最適な5種類のアノテーションボックスを自動生成。これにより、物体の形状に合った初期推定が可能になり、精度が向上した。また、境界ボックスの座標予測を、グリッドセル相対のシグモイド関数と、サイズ予測を指数関数で制約することで、予測値がグリッド外に逸脱する問題を回避。この工夫によりmAPは69.6%から74.4%へと上昇した。 さらに、小さな物体の検出を改善するため「パススルー層(Passthrough Layer)」を導入。高解像度の特徴マップの細部情報を保持し、低解像度の特徴マップと結合することで、空間的詳細を維持。また、複数の入力サイズ(320×320~608×608)で訓練する「マルチスケール学習」により、異なるサイズの物体に対応する柔軟性を獲得。これによりmAPは76.8%(416×416)から78.6%(544×544)まで向上した。 YOLOv2のバックボーンとしてDarknet-19を採用。5.58億の演算でYOLOv1(8.52億)より高速化。この高速性と精度の両立が、YOLOv2の評価を高めた。さらに、PASCAL VOCやCOCOの限られたクラス数(20・80クラス)に制約されないため、ImageNetの2万2000クラスとCOCOを階層構造(WordTree)で統合。これにより9000種類以上の物体クラスを検出可能にした。これが「YOLO9000」として名付けられた理由である。 この論文は、精度・速度・汎用性の3つの観点から、物体検出技術の新たな基準を確立した。特に、アノテーションボックスのクラスタリングとマルチスケール学習は、後の検出モデルに大きな影響を与えた。
