HyperAIHyperAI

Command Palette

Search for a command to run...

DetCLIPv3 : Vers une détection d'objets ouverte aux vocabulaires et générationnelle polyvalente

Lewei Yao Renjie Pi Jianhua Han Xiaodan Liang Hang Xu Wei Zhang Zhenguo Li Dan Xu

Résumé

Les détecteurs d’objets à vocabulaire ouvert existants nécessitent généralement un ensemble prédéfini de catégories fourni par l’utilisateur, ce qui restreint considérablement leurs scénarios d’application. Dans cet article, nous présentons DetCLIPv3, un détecteur à haute performance capable non seulement de détecter des objets dans un cadre à vocabulaire ouvert, mais aussi de générer des étiquettes hiérarchiques pour les objets détectés. DetCLIPv3 se distingue par trois conceptions fondamentales : 1. Architecture modulaire robuste : nous proposons un cadre de détection à ensemble ouvert fiable, renforcé par une capacité de génération grâce à l’intégration d’un module de génération de légendes (caption head). 2. Données à haute densité d’information : nous avons conçu un pipeline d’annotation automatique exploitant un modèle linguistique visuel à grande échelle afin de raffiner les légendes associées à des paires image-texte à grande échelle, fournissant ainsi des étiquettes riches et multi-granulaires pour améliorer l’entraînement. 3. Stratégie d’entraînement efficace : nous utilisons une phase de pré-entraînement avec des entrées à faible résolution, permettant au modèle de légendage d’objets d’apprendre efficacement un large éventail de concepts visuels à partir d’importants jeux de données image-texte. Cette phase est suivie d’une phase de fine-tuning utilisant un petit nombre d’échantillons à haute résolution afin d’optimiser davantage les performances de détection. Grâce à ces conceptions efficaces, DetCLIPv3 démontre des performances supérieures en détection à vocabulaire ouvert : par exemple, notre modèle basé sur le réseau Swin-T atteint une précision zéro-shot fixe de 47,0 AP sur le benchmark LVIS minival, dépassant ainsi GLIPv2, GroundingDINO et DetCLIPv2 de 18,0 / 19,6 / 6,6 AP respectivement. De plus, DetCLIPv3 atteint un résultat de pointe de 19,7 AP sur la tâche de légendage dense sur le jeu de données VG, illustrant ainsi sa puissante capacité de génération.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp