2ヶ月前
You Only Look Once: 統一されたリアルタイム物体検出
Joseph Redmon; Santosh Divvala; Ross Girshick; Ali Farhadi

要約
物体検出の新しいアプローチであるYOLO(You Only Look Once)を紹介します。従来の物体検出研究では、分類器を再利用して検出を行うことが一般的でした。一方、我々は物体検出を、空間的に分離されたバウンディングボックスと関連するクラス確率の回帰問題として定式化しました。単一のニューラルネットワークが、1つの評価で画像全体から直接バウンディングボックスとクラス確率を予測します。この検出パイプライン全体が単一のネットワークであるため、検出性能に基づいて端対端で最適化することができます。我々の統合アーキテクチャは非常に高速です。ベースモデルのYOLOは、リアルタイムで秒間45フレームの画像処理を行います。さらに小型化したネットワークであるFast YOLOは、驚異的な秒間155フレームの処理速度を達成しながらも、他のリアルタイム検出器よりも2倍以上のmAP(Mean Average Precision)を実現しています。最先端の検出システムと比較すると、YOLOはより多くの位置特定エラーを犯す傾向がありますが、存在しない場所での誤検出は遥かに少ないです。最後に、YOLOは非常に汎用的な物体表現を学習します。ピカソデータセットやPeople-Artデータセットにおいて、自然画像から芸術作品への一般化能力においてDPM(Deformable Parts Model)やR-CNNなどの他のすべての検出方法を大きく上回っています。