GRiT : Un Transformer régional vers texte génératif pour la compréhension des objets

Ce papier présente un modèle transformer génératif régions-vers-texte, appelé GRiT, dédié à la compréhension des objets. L'approche fondamentale de GRiT consiste à formuler la compréhension des objets à travers des paires , où la région localise l'objet et le texte le décrit. Par exemple, dans la détection d'objets, le texte correspond aux noms de classes, tandis que dans la captioning dense, il s'agit de phrases descriptives. Plus précisément, GRiT est composé d'un encodeur visuel pour extraire les caractéristiques d'image, d'un extracteur d'objets en premier plan pour localiser les objets, et d'un décodeur de texte pour générer des descriptions ouvertes des objets. Grâce à cette architecture unique, GRiT permet de comprendre les objets non seulement à l’aide de noms simples, mais également à travers des phrases descriptives riches incluant des attributs ou des actions. Expérimentalement, nous appliquons GRiT aux tâches de détection d'objets et de captioning dense. GRiT atteint un score de 60,4 AP sur le jeu de test-dev COCO 2017 pour la détection d'objets, et 15,5 mAP sur Visual Genome pour le captioning dense. Le code source est disponible à l’adresse suivante : https://github.com/JialianW/GRiT