HyperAIHyperAI
il y a 7 jours

SEM-POS : Rédaction de légendes vidéo grammaticalement et sémantiquement correctes

Asmar Nadeem, Adrian Hilton, Robert Dawes, Graham Thomas, Armin Mustafa
SEM-POS : Rédaction de légendes vidéo grammaticalement et sémantiquement correctes
Résumé

La génération de légendes grammaticalement et sémantiquement correctes dans le cadre de la captioning vidéo constitue une tâche difficile. Les légendes produites par les méthodes existantes sont soit générées mot à mot, sans respecter la structure grammaticale, soit elles omettent des informations clés présentes dans les vidéos d’entrée. Pour résoudre ces problèmes, nous proposons un nouveau réseau de fusion global-local, comprenant un bloc de fusion global-local (GLFB), qui encode et fusionne les caractéristiques provenant de différents composants morphosyntaxiques (POS) avec les caractéristiques visuelles-spatiales. Nous introduisons de nouvelles combinaisons de composants POS — « déterminant + sujet », « verbe auxiliaire », « verbe », et « déterminant + complément » — afin d’assister la supervision des blocs POS correspondants : Det + Sujet, Verbe auxiliaire, Verbe et Det + Complément. Le réseau de fusion global-local innovant, combiné aux blocs POS, permet une meilleure alignement entre les caractéristiques visuelles et la description linguistique, conduisant à la génération de légendes grammaticalement et sémantiquement correctes. Des expérimentations qualitatives et quantitatives étendues sur les jeux de données standard MSVD et MSRVTT démontrent que l’approche proposée génère des légendes plus grammaticalement et sémantiquement correctes que les méthodes existantes, atteignant ainsi un nouveau record d’état de l’art. Des études d’ablation sur les blocs POS et le GLFB mettent en évidence l’impact significatif de chacune de ces contributions sur les performances de la méthode.