HyperAIHyperAI

Command Palette

Search for a command to run...

Transformateur à mémoire mêlée pour la génération de légendes d'images

Marcella Cornia Matteo Stefanini Lorenzo Baraldi Rita Cucchiara

Résumé

Les architectures basées sur les transformateurs représentent l’état de l’art dans les tâches de modélisation de séquences telles que la traduction automatique et la compréhension du langage. Leur application dans des contextes multi-modaux, comme la génération de légendes d’images, reste toutefois largement sous-exploree. Dans un but de combler ce manque, nous présentons M² — un Transformer à mémoire en maillage pour la génération de légendes d’images. Cette architecture améliore à la fois l’encodage d’images et la génération de langage : elle apprend une représentation multi-niveaux des relations entre les régions d’une image en intégrant des connaissances a priori apprises, et utilise une connectivité de type maillage lors de la phase de décodage afin d’exploiter efficacement les caractéristiques de bas et de haut niveau. Expérimentalement, nous évaluons les performances du modèle M² ainsi que celles de divers modèles entièrement attentifs, en les comparant à des modèles récurrents. Sur le jeu de données COCO, notre approche atteint un nouveau record d’état de l’art, tant dans les configurations à modèle unique que dans celles à ensemble, sur le split de test « Karpathy » ainsi que sur le serveur de test en ligne. Nous évaluons également ses performances lors de la description d’objets non présents dans l’ensemble d’apprentissage. Les modèles entraînés ainsi que le code source permettant de reproduire les expériences sont disponibles publiquement à l’adresse suivante : https://github.com/aimagelab/meshed-memory-transformer.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp