Command Palette
Search for a command to run...
Perte focal pour la détection dense d'objets
Perte focal pour la détection dense d'objets
Résumé
Les détecteurs d'objets les plus précis à ce jour reposent sur une approche en deux étapes popularisée par R-CNN, dans laquelle un classificateur est appliqué à un ensemble sparse de positions candidates pour objets. En revanche, les détecteurs en une seule étape, appliqués sur un échantillonnage régulier et dense des positions possibles pour les objets, ont le potentiel d’être plus rapides et plus simples, mais ont jusqu’à présent atteint une précision inférieure à celle des détecteurs en deux étapes. Dans cet article, nous explorons les raisons de ce phénomène. Nous constatons que le déséquilibre extrême entre les classes « fond » et « objet » (foreground-background) rencontré lors de l’entraînement des détecteurs denses en est la cause principale. Nous proposons de corriger ce déséquilibre en modifiant la fonction de perte classique d’entropie croisée de manière à atténuer la contribution des exemples bien classifiés. Notre nouvelle fonction de perte, appelée Focal Loss, concentre l’entraînement sur un ensemble réduit d’exemples difficiles, tout en empêchant le nombre massif d’exemples négatifs faciles de dominer l’apprentissage du détecteur. Pour évaluer l’efficacité de cette perte, nous concevons et entraînons un détecteur dense simple que nous appelons RetinaNet. Nos résultats montrent qu’en utilisant la Focal Loss, RetinaNet parvient à atteindre la vitesse des détecteurs en une étape précédents tout en dépassant la précision de tous les détecteurs en deux étapes d’état de l’art existants. Le code est disponible à l’adresse suivante : https://github.com/facebookresearch/Detectron.