HyperAIHyperAI
il y a 17 jours

GRIT : Une transformation plus rapide et plus performante pour la génération de légendes d’images grâce à des caractéristiques visuelles dualisées

Van-Quang Nguyen, Masanori Suganuma, Takayuki Okatani
GRIT : Une transformation plus rapide et plus performante pour la génération de légendes d’images grâce à des caractéristiques visuelles dualisées
Résumé

Les méthodes actuelles de génération de légendes d’images s’appuient sur des caractéristiques basées sur des régions, car elles fournissent des informations au niveau des objets, essentielles pour décrire le contenu des images ; ces caractéristiques sont généralement extraites à l’aide d’un détecteur d’objets comme Faster R-CNN. Toutefois, ces approches présentent plusieurs limites, notamment un manque d’information contextuelle, un risque de détection inexacte et un coût computationnel élevé. Les deux premières limitations pourraient être atténuées en intégrant également des caractéristiques basées sur une grille. Toutefois, la manière d’extraire et de fusionner ces deux types de caractéristiques reste encore mal explorée. Ce papier propose une architecture neuronale entièrement basée sur les Transformers, nommée GRIT (Grid- and Region-based Image captioning Transformer), qui exploite efficacement les deux types de caractéristiques visuelles pour générer des légendes de meilleure qualité. GRIT remplace le détecteur basé sur les CNN utilisé dans les méthodes antérieures par un détecteur basé sur DETR, ce qui rend l’approche plus rapide sur le plan computationnel. En outre, sa conception monolithique, fondée exclusivement sur des Transformers, permet une formation end-to-end du modèle. Ce design innovant, combiné à l’intégration de caractéristiques visuelles dualisées, conduit à une amélioration significative des performances. Les résultats expérimentaux sur plusieurs benchmarks de génération de légendes d’images montrent que GRIT surpasse les méthodes antérieures en termes de précision et de vitesse d’inférence.