Perte Focale pour la Détection Dense d'Objets

Les détecteurs d'objets les plus précis à ce jour sont basés sur une approche en deux étapes popularisée par R-CNN, où un classifieur est appliqué à un ensemble épars de positions candidates d'objets. En revanche, les détecteurs en une seule étape, qui sont appliqués sur un échantillonnage régulier et dense des positions possibles d'objets, ont le potentiel d'être plus rapides et plus simples, mais jusqu'à présent, ils ont été moins précis que les détecteurs en deux étapes. Dans cet article, nous examinons les raisons de cette situation. Nous découvrons que l'important déséquilibre entre les classes premier-plan et arrière-plan rencontré lors de l'entraînement des détecteurs denses est la cause principale. Nous proposons de résoudre ce déséquilibre de classes en reformulant la perte d'entropie croisée standard de manière à réduire le poids de la perte attribuée aux exemples bien classifiés. Notre nouvelle perte focale (Focal Loss) concentre l'entraînement sur un ensemble épars d'exemples difficiles et empêche le grand nombre d'exemples négatifs faciles de submerger le détecteur pendant l'entraînement. Pour évaluer l'efficacité de notre fonction de perte, nous concevons et entraînons un détecteur dense simple que nous appelons RetinaNet. Nos résultats montrent que lorsque RetinaNet est entraîné avec la perte focale, il est capable d'égaler la vitesse des détecteurs précédents en une seule étape tout en surpassant la précision de tous les détecteurs actuels en deux étapes. Le code est disponible à : https://github.com/facebookresearch/Detectron.