HyperAIHyperAI
il y a 2 mois

Réseau de Décodage Réflexif pour la Légendisation d'Images

Lei Ke; Wenjie Pei; Ruiyu Li; Xiaoyong Shen; Yu-Wing Tai
Réseau de Décodage Réflexif pour la Légendisation d'Images
Résumé

Les méthodes de légendage d'images les plus avancées se concentrent principalement sur l'amélioration des caractéristiques visuelles, tandis que moins d'attention a été portée à l'utilisation des propriétés inhérentes du langage pour améliorer la performance du légendage. Dans cet article, nous montrons que la cohérence lexicale entre les mots et le paradigme syntaxique des phrases sont également importants pour générer des légendes d'images de haute qualité. En suivant le cadre traditionnel encodeur-décodeur, nous proposons le Réseau de Décodage Réflexif (RDN) pour le légendage d'images, qui renforce à la fois la dépendance de longue séquence et la perception de position des mots dans un décodeur de légende. Notre modèle apprend à porter une attention collaborative aux caractéristiques visuelles et textuelles tout en percevant la position relative de chaque mot dans la phrase afin de maximiser l'information transmise dans la légende générée. Nous évaluons l'efficacité de notre RDN sur les jeux de données COCO pour le légendage d'images et obtenons des performances supérieures aux méthodes précédentes. Des expériences supplémentaires révèlent que notre approche est particulièrement avantageuse pour les cas difficiles impliquant des scènes complexes à décrire par des légendes.