vor 2 Monaten

Das Erlernen von Sprach-Visuellen Einbettungen für das Verständnis von Filmen mit natürlicher Sprache

Atousa Torabi; Niket Tandon; Leonid Sigal

Abstract

Das Lernen einer gemeinsamen Sprach-Visuellen Einbettung hat eine Reihe sehr ansprechender Eigenschaften und kann zu einer Vielzahl praktischer Anwendungen führen, darunter die natürlichsprachliche Annotation und Suche von Bildern/Videos. In dieser Arbeit untersuchen wir drei verschiedene Architekturen von gemeinsamen sprach-visuellen neuronalen Netzwerken. Wir bewerten unsere Modelle anhand des großen LSMDC16-Filmdatensatzes für zwei Aufgaben: 1) Standard-Ranking für Videoannotation und -retrieval 2) Unser vorgeschlagenes Mehrfachauswahltest für Filme. Dieser Test erleichtert die automatische Bewertung von visuellsprachlichen Modellen für die natürlichsprachliche Videoannotation basierend auf menschlichen Aktivitäten. Neben den ursprünglichen Audiodeskriptionen (AD), die als Teil des LSMDC16 bereitgestellt werden, haben wir gesammelt und werden verfügbar machen: a) manuell erzeugte Umformulierungen dieser Deskriptionen, die über Amazon MTurk erhalten wurden b) automatisch generierte Elemente menschlicher Aktivitäten in „Prädikat + Objekt“ (PO)-Phrasen basierend auf „Knowlywood“, einem Modell zur Minierung von Aktivitätswissen. Unser bestes Modell erreicht einen Recall@10 von 19,2 % bei der Annotation und 18,9 % bei der Videoretrieval-Aufgabe für eine Teilmenge von 1000 Stichproben. Für den Mehrfachauswahltest erreicht unser bestes Modell eine Genauigkeit von 58,11 % über dem gesamten öffentlichen Testdatensatz des LSMDC16.