il y a 3 mois

RTGen : Génération de paires région-texte pour la détection d'objets à vocabulaire ouvert

Fangyi Chen, Han Zhang, Zhantao Yang, Hao Chen, Kai Hu, Marios Savvides

Résumé

La détection d'objets à vocabulaire ouvert (OVD) repose sur une modélisation solide des relations entre régions et sémantiques, pouvant être apprise à partir d’un grand nombre de paires région-texte. Toutefois, de telles données sont limitées en pratique en raison des coûts d’annotation élevés. Dans ce travail, nous proposons RTGen, une méthode de génération de paires région-texte évolutives, et démontrons sa capacité à améliorer significativement les performances de la détection d'objets à vocabulaire ouvert. RTGen intègre à la fois des processus de génération de région à partir de texte et de génération de texte à partir de région, basés sur des données d’image-caption évolutives. La génération texte → région est assurée par une méthode d’imputation d’image, guidée par un nouveau guide d’imputation sensible à la scène, permettant d’assurer une harmonie globale de la disposition. Pour la génération région → texte, nous réalisons plusieurs descriptions d’image au niveau des régions, en utilisant diverses instructions (prompts), et sélectionnons le texte correspondant le mieux selon la similarité mesurée par CLIP. Afin de faciliter l’entraînement dédié à la détection sur ces paires région-texte, nous introduisons également une perte contrastive régionale sensible à la localisation, qui apprend des propositions d’objets adaptées à différentes qualités de localisation. Des expériences étendues montrent que RTGen peut servir de source évolutive, riche sémantiquement et efficace pour la détection d'objets à vocabulaire ouvert, et améliore continuellement les performances du modèle à mesure que davantage de données sont utilisées, surpassant ainsi les méthodes de pointe existantes.