HyperAIHyperAI
il y a 2 mois

Une Utilisation Améliorée des Indices Audiovisuels : Légendage Vidéo Dense avec Transformateur Bimodal

Vladimir Iashin; Esa Rahtu
Une Utilisation Améliorée des Indices Audiovisuels : Légendage Vidéo Dense avec Transformateur Bimodal
Résumé

La légendage vidéo dense vise à localiser et décrire les événements importants dans des vidéos non tronquées. Les méthodes existantes abordent principalement cette tâche en exploitant uniquement les caractéristiques visuelles, négligeant complètement la piste audio. Seules quelques études antérieures ont utilisé les deux modalités, mais elles montrent de mauvais résultats ou démontrent l'importance de ces modalités sur un ensemble de données spécifique à un domaine. Dans cet article, nous introduisons le Bi-modal Transformer qui généralise l'architecture du Transformer pour une entrée bimodale. Nous démontrons l'efficacité du modèle proposé en utilisant les modalités audio et visuelles pour la tâche de légendage vidéo dense, bien que le module soit capable d'intégrer n'importe quelles deux modalités dans une tâche de séquence à séquence. Nous montrons également que l'encodeur bimodal pré-entraîné, faisant partie du Bi-modal Transformer, peut être utilisé comme extracteur de caractéristiques pour un module simple de génération de propositions. Les performances sont illustrées sur l'ensemble de données ActivityNet Captions, où notre modèle atteint des résultats exceptionnels. Le code est disponible : v-iashin.github.io/bmt

Une Utilisation Améliorée des Indices Audiovisuels : Légendage Vidéo Dense avec Transformateur Bimodal | Articles de recherche récents | HyperAI