HyperAIHyperAI

Command Palette

Search for a command to run...

RTGen : Génération de paires région-texte pour la détection d'objets à vocabulaire ouvert

Fangyi Chen Han Zhang Zhantao Yang Hao Chen Kai Hu Marios Savvides

Résumé

La détection d'objets à vocabulaire ouvert (OVD) repose sur une modélisation solide des relations entre régions et sémantiques, pouvant être apprise à partir d’un grand nombre de paires région-texte. Toutefois, de telles données sont limitées en pratique en raison des coûts d’annotation élevés. Dans ce travail, nous proposons RTGen, une méthode de génération de paires région-texte évolutives, et démontrons sa capacité à améliorer significativement les performances de la détection d'objets à vocabulaire ouvert. RTGen intègre à la fois des processus de génération de région à partir de texte et de génération de texte à partir de région, basés sur des données d’image-caption évolutives. La génération texte → région est assurée par une méthode d’imputation d’image, guidée par un nouveau guide d’imputation sensible à la scène, permettant d’assurer une harmonie globale de la disposition. Pour la génération région → texte, nous réalisons plusieurs descriptions d’image au niveau des régions, en utilisant diverses instructions (prompts), et sélectionnons le texte correspondant le mieux selon la similarité mesurée par CLIP. Afin de faciliter l’entraînement dédié à la détection sur ces paires région-texte, nous introduisons également une perte contrastive régionale sensible à la localisation, qui apprend des propositions d’objets adaptées à différentes qualités de localisation. Des expériences étendues montrent que RTGen peut servir de source évolutive, riche sémantiquement et efficace pour la détection d'objets à vocabulaire ouvert, et améliore continuellement les performances du modèle à mesure que davantage de données sont utilisées, surpassant ainsi les méthodes de pointe existantes.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp