HyperAI超神経

2016年に発表された論文「YOLO9000: Better, Faster, Stronger」は、物体検出モデルの進化を象徴する重要な研究である。この論文で提案されたYOLOv2は、YOLOv1の課題を解決するための多岐にわたる改良を実施した。主な問題は、位置推定の誤差（Localization Error）と低めの再現率（Recall）だった。これらの課題を克服するため、著者たちはバッチ正規化（Batch Normalization）を導入し、学習の安定化と収束速度の向上を実現。これによりmAP（平均精度）は63.4%から65.8%へと改善された。さらに、画像サイズの変更による訓練の不整合を解消するため、ImageNetを448×448で事前学習した後に、PASCAL VOCの検出タスクで再学習するという段階的なファインチューニング手法を採用。この変更によりmAPは65.8%から69.5%へと上昇した。 YOLOv1では1グリッドセルあたり2つの境界ボックスを予測していたが、YOLOv2ではアノテーションボックス（Anchor Box）を導入。K-meansクラスタリングを用いて、データセット内の物体サイズの分布に最適な5種類のアノテーションボックスを自動生成。これにより、物体の形状に合った初期推定が可能になり、精度が向上した。また、境界ボックスの座標予測を、グリッドセル相対のシグモイド関数と、サイズ予測を指数関数で制約することで、予測値がグリッド外に逸脱する問題を回避。この工夫によりmAPは69.6%から74.4%へと上昇した。さらに、小さな物体の検出を改善するため「パススルー層（Passthrough Layer）」を導入。高解像度の特徴マップの細部情報を保持し、低解像度の特徴マップと結合することで、空間的詳細を維持。また、複数の入力サイズ（320×320～608×608）で訓練する「マルチスケール学習」により、異なるサイズの物体に対応する柔軟性を獲得。これによりmAPは76.8%（416×416）から78.6%（544×544）まで向上した。 YOLOv2のバックボーンとしてDarknet-19を採用。5.58億の演算でYOLOv1（8.52億）より高速化。この高速性と精度の両立が、YOLOv2の評価を高めた。さらに、PASCAL VOCやCOCOの限られたクラス数（20・80クラス）に制約されないため、ImageNetの2万2000クラスとCOCOを階層構造（WordTree）で統合。これにより9000種類以上の物体クラスを検出可能にした。これが「YOLO9000」として名付けられた理由である。この論文は、精度・速度・汎用性の3つの観点から、物体検出技術の新たな基準を確立した。特に、アノテーションボックスのクラスタリングとマルチスケール学習は、後の検出モデルに大きな影響を与えた。

関連リンク

関連リンク

関連リンク

Command Palette

YOLOv2の革新：より正確で高速な物体検出の実現

関連リンク

Command Palette

YOLOv2の革新：より正確で高速な物体検出の実現

関連リンク

Command Palette

YOLOv2の革新：より正確で高速な物体検出の実現

関連リンク