HyperAIHyperAI
il y a 2 mois

Apprentissage d'embeddings langage-visuel pour la compréhension des films avec le langage naturel

Atousa Torabi; Niket Tandon; Leonid Sigal
Apprentissage d'embeddings langage-visuel pour la compréhension des films avec le langage naturel
Résumé

L'apprentissage d'un plongement linguistique-visuel conjoint présente de nombreuses propriétés très attractives et peut aboutir à une variété d'applications pratiques, notamment l'annotation et la recherche d'images/vidéos par langage naturel. Dans cette étude, nous examinons trois architectures différentes de modèles de réseaux neuronaux conjoints linguistiques-visuels. Nous évaluons nos modèles sur le grand ensemble de données de films LSMDC16 pour deux tâches : 1) le classement standard pour l'annotation et la recherche vidéo ; 2) notre test à choix multiples proposé pour les films. Ce test facilite l'évaluation automatique des modèles visuels-linguistiques pour l'annotation vidéo en langage naturel basée sur les activités humaines. En plus des légendes originales de description audio (AD) fournies dans le cadre de LSMDC16, nous avons collecté et rendrons disponibles : a) des reformulations manuelles de ces légendes obtenues via Amazon Mechanical Turk ; b) des éléments d'activités humaines générés automatiquement sous forme de phrases « Prédicat + Objet » (PO), basés sur « Knowlywood », un modèle d'extraction de connaissances sur les activités.Notre meilleur modèle atteint un taux de rappel @10 de 19,2 % pour l'annotation et de 18,9 % pour la recherche vidéo sur un sous-ensemble de 1000 échantillons. Pour le test à choix multiples, notre meilleur modèle obtient une précision de 58,11 % sur l'ensemble du jeu de tests public LSMDC16.