HyperAIHyperAI
il y a 17 jours

Exploiter plusieurs longueurs de séquence dans l'entraînement rapide direct pour la génération de légendes d'images

Jia Cheng Hu, Roberto Cavicchioli, Alessandro Capotondi
Exploiter plusieurs longueurs de séquence dans l'entraînement rapide direct pour la génération de légendes d'images
Résumé

Nous introduisons une méthode appelée mécanisme d’expansion, qui traite l’entrée sans contrainte liée au nombre d’éléments de la séquence. Grâce à cette approche, le modèle parvient à apprendre de manière plus efficace que les méthodes traditionnelles basées sur l’attention. Pour étayer cette affirmation, nous avons conçu une nouvelle architecture, ExpansionNet v2, qui obtient des résultats remarquables sur le défi de génération de légendes d’images MS COCO 2014, atteignant l’état de l’art dans sa catégorie, avec un score de 143,7 CIDErD sur le split de test hors ligne, 140,8 CIDErD sur le serveur d’évaluation en ligne, et 72,9 AllCIDEr sur l’ensemble de validation nocaps. En outre, nous proposons un algorithme d’entraînement bout-en-bout, jusqu’à 2,8 fois plus rapide que les solutions établies. Le code source est disponible à l’adresse suivante : https://github.com/jchenghu/ExpansionNet_v2