Vous Ne Regardez Qu'une Seule Fois : Détection d'Objets Unifiée et en Temps Réel

Nous présentons YOLO, une nouvelle approche de détection d'objets. Les travaux précédents sur la détection d'objets ont réutilisé des classifieurs pour effectuer la détection. En revanche, nous formulons la détection d'objets comme un problème de régression vers des boîtes englobantes séparées spatialement et les probabilités de classe associées. Un seul réseau neuronal prédit directement les boîtes englobantes et les probabilités de classe à partir d'images complètes en une seule évaluation. Comme l'ensemble du pipeline de détection est constitué d'un seul réseau, il peut être optimisé de manière end-to-end directement sur les performances de détection.Notre architecture unifiée est extrêmement rapide. Notre modèle YOLO de base traite les images en temps réel à 45 images par seconde. Une version plus petite du réseau, Fast YOLO, traite un impressionnant 155 images par seconde tout en atteignant le double du mAP (mean Average Precision) des autres détecteurs en temps réel. Par rapport aux systèmes de détection les plus avancés, YOLO commet davantage d'erreurs de localisation mais est beaucoup moins susceptible de prédire des fausses détections là où rien n'existe. Enfin, YOLO apprend des représentations très générales des objets. Il surpasse tous les autres méthodes de détection, y compris DPM (Deformable Parts Model) et R-CNN (Region-based Convolutional Neural Network), avec une large marge lorsqu'il s'agit de généraliser des images naturelles à des œuvres d'art, tant dans le Jeu de données Picasso que dans le Jeu de données People-Art.