Détection d'objets faiblement supervisée sensible à l'instance, axée sur le contexte et efficace en mémoire

L’apprentissage faiblement supervisé est apparu comme un outil prometteur pour la détection d’objets en réduisant la nécessité d’une supervision forte pendant l’entraînement. Toutefois, plusieurs défis majeurs persistent : (1) la distinction entre les instances d’objets peut être ambiguë ; (2) les détecteurs ont tendance à se concentrer sur des parties discriminantes plutôt que sur les objets entiers ; (3) en l’absence de vérité terrain, les propositions d’objets doivent être redondantes afin d’assurer un haut taux de rappel, entraînant une consommation importante de mémoire. La résolution de ces problèmes s’avère difficile, car elle exige souvent l’élimination des incertitudes et des solutions triviales. Pour répondre à ces défis, nous proposons un cadre unifié conscient des instances et axé sur le contexte. Il intègre un algorithme d’autotraining conscient des instances, un bloc d’abandon apprenable (Concrete DropBlock) et une rétropropagation par lots séquentielle efficace en mémoire. La méthode proposée atteint des résultats de pointe sur COCO (12,1 % AP, 24,8 % AP₅₀), VOC 2007 (54,9 % AP) et VOC 2012 (52,1 % AP), surpassant significativement les modèles de base. En outre, cette approche est la première à établir une référence pour les modèles basés sur ResNet et la détection d’objets dans les vidéos avec une supervision faible. Le code, les modèles et des détails supplémentaires seront disponibles à l’adresse suivante : https://github.com/NVlabs/wetectron.