Apprentissage de propositions d'objets dans le monde ouvert sans apprendre à classer

Les propositions d'objets sont devenues une étape préalable intégrale de nombreux pipelines de vision, y compris la détection d'objets, la détection faiblement supervisée, la découverte d'objets, le suivi, etc. Comparées aux méthodes sans apprentissage, les propositions basées sur l'apprentissage ont récemment gagné en popularité en raison de l'intérêt croissant pour la détection d'objets. Le paradigme courant consiste à apprendre des propositions d'objets à partir de données étiquetées avec un ensemble de régions d'objets et leurs catégories correspondantes. Cependant, cette approche peine souvent à détecter des objets nouveaux dans le monde ouvert qui sont absents du jeu d'entraînement. Dans cet article, nous identifions que le problème est que les classifieurs binaires des méthodes actuelles de proposition ont tendance à surapprendre les catégories d'entraînement. Par conséquent, nous proposons un réseau de localisation d'objets (Object Localization Network - OLN) sans classification qui évalue l'« objectivité » de chaque région uniquement en fonction de la qualité du chevauchement entre sa position et sa forme et tout objet véridique (par exemple, le centrage et l'IoU). Cette stratégie simple permet d'apprendre une « objectivité » généralisable et surpasser les propositions existantes en termes de généralisation inter-catégorielle sur COCO, ainsi qu'en termes d'évaluation inter-jeux de données sur RoboNet, Object365 et EpicKitchens. Enfin, nous démontrons les avantages de l'OLN pour la détection d'objets à queue longue sur un jeu de données à vocabulaire large, LVIS, où nous constatons une amélioration claire dans les catégories rares et communes.