HyperAIHyperAI

Command Palette

Search for a command to run...

CP-DETR : Guide par Prompt de Concept pour DETR vers une Détection Universelle d'Objets Plus Puissante

Qibo Chen Weizhong Jin Jianyue Ge Mengdi Liu Yuchao Yan Jian Jiang Li Yu Xuanjiang Guo Shuchang Li Jianzhong Chen

Résumé

Les recherches récentes sur la détection d'objets universelle visent à intégrer le langage dans un détecteur d'ensemble fermé de pointe (SoTA), puis à généraliser les concepts d'ensemble ouvert en construisant des jeux de données à grande échelle (texte-région) pour l'entraînement. Toutefois, ces méthodes font face à deux défis majeurs : (i) comment exploiter efficacement les informations a priori contenues dans les prompts afin de généraliser la détection d'objets, et (ii) comment réduire le biais d'alignement dans les tâches en aval, deux problèmes qui entraînent une performance sous-optimale dans certaines situations au-delà de l'étape de pré-entraînement. Pour relever ces défis, nous proposons un modèle fondamental robuste pour la détection universelle, nommé CP-DETR, qui se distingue par sa compétitivité dans presque toutes les scénarios, avec un seul jeu de poids pré-entraînés. Plus précisément, nous avons conçu un encodeur hybride visuel-par-phrase efficace, qui renforce l'interaction d'information entre les phrases et les données visuelles grâce à des modules de fusion à différentes échelles et à échelle multiple. Ce encodeur hybride est ensuite optimisé pour exploiter pleinement les informations fournies par les prompts grâce à une fonction de perte multi-étiquettes basée sur les prompts et à une tête de détection auxiliaire. En plus des phrases textuelles, nous avons conçu deux méthodes pratiques de génération de prompts conceptuels : le prompt visuel et le prompt optimisé, permettant d'extraire des concepts abstraits à partir d'exemples visuels concrets tout en réduisant de manière stable le biais d'alignement dans les tâches en aval. Grâce à ces conceptions efficaces, CP-DETR démontre des performances supérieures en détection universelle sur une large gamme de scénarios. Par exemple, notre modèle à base de Swin-T atteint 47,6 AP en détection zéro-shot sur LVIS, tandis que le modèle basé sur Swin-L atteint 32,2 AP en détection zéro-shot sur ODinW35. En outre, notre méthode de génération de prompts visuels atteint 68,4 AP sur COCO val via une détection interactive, et le prompt optimisé atteint 73,1 AP en mode fully-shot sur ODinW13.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
CP-DETR : Guide par Prompt de Concept pour DETR vers une Détection Universelle d'Objets Plus Puissante | Articles | HyperAI