vor einem Monat

Das Lernen einer Text-Videos-Einbettung aus unvollständigen und heterogenen Daten

Antoine Miech; Ivan Laptev; Josef Sivic

Abstract

Die gemeinsame Verarbeitung von Video und Sprache ist ein aktives Forschungsgebiet mit zahlreichen Anwendungen. Frühere Arbeiten in diesem Bereich basieren in der Regel auf dem Lernen von Text-Video-Einbettungen (embeddings). Ein Problem bei diesem Ansatz ist jedoch das Fehlen umfangreicher annotierter Videobeschreibungsdatensätze für die Ausbildung. Um dieses Problem zu lösen, streben wir an, Text-Video-Einbettungen aus heterogenen Datenquellen zu lernen. Zu diesem Zweck schlagen wir ein Modell namens Mixture-of-Embedding-Experts (MEE) vor, das die Fähigkeit hat, fehlende Eingabemodalitäten während des Trainings zu verarbeiten. Dadurch kann unser Framework verbesserte Text-Video-Einbettungen gleichzeitig aus Bild- und Videodatensätzen lernen. Wir zeigen außerdem die Anwendbarkeit des MEE auf andere Eingabemodalitäten wie Gesichtsdeskriptoren. Unsere Methode wird anhand der Aufgabe der Videoretrieval evaluiert, wobei wir Ergebnisse für die Datensätze MPII Movie Description und MSR-VTT berichten. Das vorgeschlagene MEE-Modell zeigt erhebliche Verbesserungen und übertrifft die bisher veröffentlichten Methoden sowohl bei den Text-zu-Video- als auch bei den Video-zu-Text-Retrieval-Aufgaben. Der Quellcode ist unter folgendem Link verfügbar: https://github.com/antoine77340/Mixture-of-Embedding-Experts