HyperAIHyperAI

Command Palette

Search for a command to run...

Une Utilisation Améliorée des Indices Audiovisuels : Légendage Vidéo Dense avec Transformateur Bimodal

Vladimir Iashin; Esa Rahtu

Résumé

La légendage vidéo dense vise à localiser et décrire les événements importants dans des vidéos non tronquées. Les méthodes existantes abordent principalement cette tâche en exploitant uniquement les caractéristiques visuelles, négligeant complètement la piste audio. Seules quelques études antérieures ont utilisé les deux modalités, mais elles montrent de mauvais résultats ou démontrent l'importance de ces modalités sur un ensemble de données spécifique à un domaine. Dans cet article, nous introduisons le Bi-modal Transformer qui généralise l'architecture du Transformer pour une entrée bimodale. Nous démontrons l'efficacité du modèle proposé en utilisant les modalités audio et visuelles pour la tâche de légendage vidéo dense, bien que le module soit capable d'intégrer n'importe quelles deux modalités dans une tâche de séquence à séquence. Nous montrons également que l'encodeur bimodal pré-entraîné, faisant partie du Bi-modal Transformer, peut être utilisé comme extracteur de caractéristiques pour un module simple de génération de propositions. Les performances sont illustrées sur l'ensemble de données ActivityNet Captions, où notre modèle atteint des résultats exceptionnels. Le code est disponible : v-iashin.github.io/bmt


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp