Sparse R-CNN : Détection d'objets en bout à bout avec des propositions apprenables

Nous présentons Sparse R-CNN, une méthode entièrement sparse pour la détection d'objets dans les images. Les travaux existants en détection d'objets s'appuient fortement sur des candidats d'objets denses, tels que $k$ boîtes d'ancrage prédéfinies sur toutes les grilles de la carte de caractéristiques d'image de taille $H \times W$. Dans notre approche, en revanche, un ensemble fixe et sparse de propositions d'objets apprises, de longueur totale $N$, est fourni à la tête de reconnaissance d'objets afin d'effectuer la classification et la localisation. En éliminant les $HWk$ (jusqu'à des centaines de milliers) candidats d'objets conçus manuellement au profit de $N$ (par exemple 100) propositions apprenables, Sparse R-CNN évite complètement tout effort lié à la conception des candidats d'objets ainsi qu'au processus d'affectation d'étiquettes multiplexe-unique. Plus important encore, les prédictions finales sont directement produites sans nécessiter de post-traitement par suppression non maximale (non-maximum suppression). Sparse R-CNN atteint une précision, une vitesse d'exécution et une convergence d'entraînement comparables aux meilleures méthodes établies sur le défi COCO, par exemple obtenir 45,0 AP dans un cycle d'entraînement standard $3\times$ et fonctionner à 22 fps en utilisant un modèle ResNet-50 FPN. Nous espérons que notre travail incitera à repenser la convention des priorités denses dans les détecteurs d'objets. Le code est disponible à l'adresse : https://github.com/PeizeSun/SparseR-CNN.