HyperAIHyperAI

Command Palette

Search for a command to run...

GRiT : Un Transformer régional vers texte génératif pour la compréhension des objets

Jialian Wu Jianfeng Wang Zhengyuan Yang Zhe Gan Zicheng Liu Junsong Yuan Lijuan Wang

Résumé

Ce papier présente un modèle transformer génératif régions-vers-texte, appelé GRiT, dédié à la compréhension des objets. L'approche fondamentale de GRiT consiste à formuler la compréhension des objets à travers des paires , où la région localise l'objet et le texte le décrit. Par exemple, dans la détection d'objets, le texte correspond aux noms de classes, tandis que dans la captioning dense, il s'agit de phrases descriptives. Plus précisément, GRiT est composé d'un encodeur visuel pour extraire les caractéristiques d'image, d'un extracteur d'objets en premier plan pour localiser les objets, et d'un décodeur de texte pour générer des descriptions ouvertes des objets. Grâce à cette architecture unique, GRiT permet de comprendre les objets non seulement à l’aide de noms simples, mais également à travers des phrases descriptives riches incluant des attributs ou des actions. Expérimentalement, nous appliquons GRiT aux tâches de détection d'objets et de captioning dense. GRiT atteint un score de 60,4 AP sur le jeu de test-dev COCO 2017 pour la détection d'objets, et 15,5 mAP sur Visual Genome pour le captioning dense. Le code source est disponible à l’adresse suivante : https://github.com/JialianW/GRiT


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp