HyperAIHyperAI
il y a 7 jours

Texte enrichi par un graphe de connaissances et transformateur pour la génération de légendes vidéo

Xin Gu, Guang Chen, Yufei Wang, Libo Zhang, Tiejian Luo, Longyin Wen
Texte enrichi par un graphe de connaissances et transformateur pour la génération de légendes vidéo
Résumé

La génération de légendes vidéo vise à décrire le contenu des vidéos à l’aide d’un langage naturel. Bien que des progrès significatifs aient été accomplis, de nombreuses perspectives restent ouvertes pour améliorer les performances dans des applications du monde réel, principalement en raison du défi posé par les mots à queue longue (long-tail words). Dans cet article, nous proposons un modèle de transformer enrichi par un graphe de connaissances (TextKG) pour la génération de légendes vidéo. Notamment, TextKG est un transformer à deux flux, composé d’un flux externe et d’un flux interne. Le flux externe est conçu pour intégrer des connaissances supplémentaires, en modélisant les interactions entre ces connaissances externes — telles qu’un graphe de connaissances prédéfini — et les informations intrinsèques des vidéos — telles que les régions d’objets saillants, les transcriptions vocales ou les légendes vidéo — afin de réduire l’impact des mots à queue longue. Parallèlement, le flux interne est conçu pour exploiter efficacement les informations multimodales présentes dans les vidéos (par exemple, l’apparence des images, les transcriptions vocales et les légendes) afin d’assurer la qualité des résultats de légendes. En outre, un mécanisme d’attention croisée est utilisé entre les deux flux pour permettre un partage d’informations. Ainsi, les deux flux peuvent s’assister mutuellement afin d’obtenir des résultats plus précis. Des expériences étendues menées sur quatre jeux de données exigeants pour la génération de légendes vidéo — YouCookII, ActivityNet Captions, MSRVTT et MSVD — démontrent que la méthode proposée surpasse avantageusement les approches de pointe. Plus précisément, le modèle TextKG améliore de 18,7 points absolus le score CIDEr par rapport aux meilleurs résultats publiés sur le jeu de données YouCookII.

Texte enrichi par un graphe de connaissances et transformateur pour la génération de légendes vidéo | Articles de recherche récents | HyperAI