Perception Universelle des Instances comme Découverte et Récupération d'Objets

Toutes les tâches de perception d'instances visent à trouver certains objets spécifiés par des requêtes telles que des noms de catégories, des expressions linguistiques et des annotations cibles, mais ce domaine complet a été divisé en plusieurs sous-tâches indépendantes. Dans cette étude, nous présentons un modèle universel de perception d'instances de nouvelle génération, appelé UNINEXT. UNINEXT reformule diverses tâches de perception d'instances en un paradigme unifié de découverte et de récupération d'objets, capable de percevoir différents types d'objets simplement en modifiant les invites d'entrée. Cette formulation unifiée apporte les avantages suivants : (1) une quantité énorme de données provenant de différentes tâches et vocabulaires d'étiquettes peut être exploitée pour l'entraînement conjoint de représentations générales au niveau des instances, ce qui est particulièrement bénéfique pour les tâches qui manquent de données d'entraînement. (2) le modèle unifié est efficace en termes de paramètres et peut économiser des calculs redondants lorsqu'il gère simultanément plusieurs tâches. UNINEXT montre des performances supérieures sur 20 benchmarks difficiles issus de 10 tâches au niveau des instances, y compris des tâches classiques au niveau des images (détection d'objets et segmentation d'instances), des tâches vision-langage (compréhension d'expressions référentielles et segmentation) et six tâches de suivi d'objets au niveau vidéo. Le code source est disponible à l'adresse suivante : https://github.com/MasterBin-IIAU/UNINEXT.