HyperAIHyperAI
il y a 11 jours

CP-DETR : Guide par Prompt de Concept pour DETR vers une Détection Universelle d'Objets Plus Puissante

Qibo Chen, Weizhong Jin, Jianyue Ge, Mengdi Liu, Yuchao Yan, Jian Jiang, Li Yu, Xuanjiang Guo, Shuchang Li, Jianzhong Chen
CP-DETR : Guide par Prompt de Concept pour DETR vers une Détection Universelle d'Objets Plus Puissante
Résumé

Les recherches récentes sur la détection d'objets universelle visent à intégrer le langage dans un détecteur d'ensemble fermé de pointe (SoTA), puis à généraliser les concepts d'ensemble ouvert en construisant des jeux de données à grande échelle (texte-région) pour l'entraînement. Toutefois, ces méthodes font face à deux défis majeurs : (i) comment exploiter efficacement les informations a priori contenues dans les prompts afin de généraliser la détection d'objets, et (ii) comment réduire le biais d'alignement dans les tâches en aval, deux problèmes qui entraînent une performance sous-optimale dans certaines situations au-delà de l'étape de pré-entraînement. Pour relever ces défis, nous proposons un modèle fondamental robuste pour la détection universelle, nommé CP-DETR, qui se distingue par sa compétitivité dans presque toutes les scénarios, avec un seul jeu de poids pré-entraînés. Plus précisément, nous avons conçu un encodeur hybride visuel-par-phrase efficace, qui renforce l'interaction d'information entre les phrases et les données visuelles grâce à des modules de fusion à différentes échelles et à échelle multiple. Ce encodeur hybride est ensuite optimisé pour exploiter pleinement les informations fournies par les prompts grâce à une fonction de perte multi-étiquettes basée sur les prompts et à une tête de détection auxiliaire. En plus des phrases textuelles, nous avons conçu deux méthodes pratiques de génération de prompts conceptuels : le prompt visuel et le prompt optimisé, permettant d'extraire des concepts abstraits à partir d'exemples visuels concrets tout en réduisant de manière stable le biais d'alignement dans les tâches en aval. Grâce à ces conceptions efficaces, CP-DETR démontre des performances supérieures en détection universelle sur une large gamme de scénarios. Par exemple, notre modèle à base de Swin-T atteint 47,6 AP en détection zéro-shot sur LVIS, tandis que le modèle basé sur Swin-L atteint 32,2 AP en détection zéro-shot sur ODinW35. En outre, notre méthode de génération de prompts visuels atteint 68,4 AP sur COCO val via une détection interactive, et le prompt optimisé atteint 73,1 AP en mode fully-shot sur ODinW13.

CP-DETR : Guide par Prompt de Concept pour DETR vers une Détection Universelle d'Objets Plus Puissante | Articles de recherche récents | HyperAI