HyperAIHyperAI
il y a 8 jours

Cadre d'annotation de vidéos basé sur l'attention pour l'hindi

{Sivaji Bandyopadhyay, · Thoudam Doren Singh, Alok Singh}
Résumé

Dans les temps récents, des recherches actives sont menées pour combler le fossé entre la vision par ordinateur et le traitement du langage naturel. Dans ce travail, nous abordons le problème de la génération de légendes vidéo en hindi. Dans un pays linguistiquement diversifié comme l’Inde, il est essentiel de proposer des outils permettant de comprendre les entités visuelles dans les langues locales. Dans cette étude, nous introduisons un mécanisme d’attention hybride en étendant le mécanisme d’attention temporelle douce avec une attention sémantique, afin de permettre au système de décider précisément à quel moment se concentrer sur le vecteur contextuel visuel ou sur l’entrée sémantique. Le vecteur contextuel visuel extrait à partir de la vidéo d’entrée est obtenu à l’aide d’un réseau neuronal convolutif 3D (3D CNN), tandis qu’un réseau récurrent LSTM doté d’un module d’attention est utilisé pour décoder le vecteur contextuel encodé. Nous avons expérimenté sur un jeu de données développé in-house pour la légendation vidéo en hindi, construit par traduction du jeu de données MSR-VTT suivie d’un post-traitement. Notre système atteint un score CIDEr de 0,369 et un score METEOR de 0,393, surpassant ainsi d’autres modèles de référence, y compris le modèle basé sur les Réseaux de modules de raisonnement (RMN).

Cadre d'annotation de vidéos basé sur l'attention pour l'hindi | Articles de recherche récents | HyperAI