HyperAIHyperAI
il y a 2 mois

Reconnaissance de Situations Ancrées avec des Transformers

Cho, Junhyeong ; Yoon, Youngseok ; Lee, Hyeonjun ; Kwak, Suha
Reconnaissance de Situations Ancrées avec des Transformers
Résumé

La Reconnaissance de Situation Ancrée (GSR) est une tâche qui ne se contente pas de classifier une action saillante (verbe), mais prédit également les entités (noms) associées aux rôles sémantiques et leurs emplacements dans l'image donnée. Inspirés par le succès remarquable des Transformers dans les tâches de vision, nous proposons un modèle GSR basé sur une architecture encodeur-décodeur de Transformer. Le mécanisme d'attention de notre modèle permet une classification précise des verbes en capturant efficacement les caractéristiques sémantiques de haut niveau d'une image, et permet au modèle de gérer de manière flexible les relations complexes et dépendantes de l'image entre les entités, améliorant ainsi la classification et la localisation des noms. Notre modèle est la première architecture Transformer pour la GSR, et il atteint l'état de l'art dans toutes les métriques d'évaluation sur le benchmark SWiG. Notre code est disponible à l'adresse suivante : https://github.com/jhcho99/gsrtr .

Reconnaissance de Situations Ancrées avec des Transformers | Articles de recherche récents | HyperAI