HyperAIHyperAI
il y a 18 jours

Encodeur Croisé Récurrent Léger pour la Réponse aux Questions sur les Vidéos

{Cheol Jeong, Steve Andreas Immanuel}
Résumé

Une tâche de réponse aux questions à partir de vidéos revient essentiellement à fusionner efficacement les informations entre le texte et la vidéo afin de prédire une réponse. La plupart des approches utilisent un encodeur transformer comme encodeur cross-modale, qui fusionne les deux modalités grâce au mécanisme complet d’attention auto-récurrente. En raison du coût computationnel élevé de l’attention auto-récurrente ainsi que de la haute dimensionnalité des données vidéo, ces méthodes doivent souvent se contenter de : 1) entraîner uniquement l’encodeur cross-modale sur des caractéristiques vidéo et textuelles extraites préalablement en mode hors ligne, ou 2) entraîner l’encodeur cross-modale conjointement avec les extracteurs de caractéristiques vidéo et textuelles, mais en utilisant uniquement des cadres vidéo échantillonnés de manière éparsse. L’entraînement uniquement à partir de caractéristiques extraites en amont souffre d’un décalage entre ces caractéristiques et les données de la tâche cible, car les extracteurs vidéo et textuels sont entraînés indépendamment sur des domaines différents — par exemple, la reconnaissance d’actions pour l’extracteur vidéo et la classification sémantique pour l’extracteur textuel. En revanche, l’usage d’échantillonnage épars de cadres vidéo peut entraîner une perte d’information si la vidéo contient une richesse d’informations ou un grand nombre de cadres. Pour atténuer ces limitations, nous proposons un modèle appelé Lightweight Recurrent Cross-modal Encoder (LRCE), qui remplace l’opération d’attention auto-récurrente par un unique token apprenable spécialement conçu pour résumer les caractéristiques textuelles et vidéo. Ce choix permet à notre modèle de réduire considérablement le coût computationnel. Par ailleurs, nous introduisons une nouvelle stratégie d’échantillonnage multi-segments, qui préleve de manière éparsse des cadres vidéo à partir de différentes parties de la vidéo, afin d’offrir une information plus fine-grainée. À travers des expériences approfondies sur trois jeux de données VideoQA, nous démontrons que LRCE obtient des gains de performance significatifs par rapport aux méthodes précédentes.

Encodeur Croisé Récurrent Léger pour la Réponse aux Questions sur les Vidéos | Articles de recherche récents | HyperAI