DetCLIPv3 : Vers une détection d'objets ouverte aux vocabulaires et générationnelle polyvalente

Les détecteurs d’objets à vocabulaire ouvert existants nécessitent généralement un ensemble prédéfini de catégories fourni par l’utilisateur, ce qui restreint considérablement leurs scénarios d’application. Dans cet article, nous présentons DetCLIPv3, un détecteur à haute performance capable non seulement de détecter des objets dans un cadre à vocabulaire ouvert, mais aussi de générer des étiquettes hiérarchiques pour les objets détectés. DetCLIPv3 se distingue par trois conceptions fondamentales : 1. Architecture modulaire robuste : nous proposons un cadre de détection à ensemble ouvert fiable, renforcé par une capacité de génération grâce à l’intégration d’un module de génération de légendes (caption head). 2. Données à haute densité d’information : nous avons conçu un pipeline d’annotation automatique exploitant un modèle linguistique visuel à grande échelle afin de raffiner les légendes associées à des paires image-texte à grande échelle, fournissant ainsi des étiquettes riches et multi-granulaires pour améliorer l’entraînement. 3. Stratégie d’entraînement efficace : nous utilisons une phase de pré-entraînement avec des entrées à faible résolution, permettant au modèle de légendage d’objets d’apprendre efficacement un large éventail de concepts visuels à partir d’importants jeux de données image-texte. Cette phase est suivie d’une phase de fine-tuning utilisant un petit nombre d’échantillons à haute résolution afin d’optimiser davantage les performances de détection. Grâce à ces conceptions efficaces, DetCLIPv3 démontre des performances supérieures en détection à vocabulaire ouvert : par exemple, notre modèle basé sur le réseau Swin-T atteint une précision zéro-shot fixe de 47,0 AP sur le benchmark LVIS minival, dépassant ainsi GLIPv2, GroundingDINO et DetCLIPv2 de 18,0 / 19,6 / 6,6 AP respectivement. De plus, DetCLIPv3 atteint un résultat de pointe de 19,7 AP sur la tâche de légendage dense sur le jeu de données VG, illustrant ainsi sa puissante capacité de génération.