Command Palette
Search for a command to run...
Multi-modale dichte Video-Kommentierung
Multi-modale dichte Video-Kommentierung
Vladimir Iashin Esa Rahtu
Zusammenfassung
Dense Video Captioning ist eine Aufgabe, bei der interessante Ereignisse aus einem ungeschnittenen Video lokalisiert und für jedes lokalisierte Ereignis eine textuelle Beschreibung (Caption) generiert wird. Die meisten vorherigen Ansätze im Bereich des Dense Video Captioning basieren ausschließlich auf visuellen Informationen und ignorieren die Audiospur vollständig. Doch Audio – insbesondere Sprache – stellt für einen menschlichen Beobachter entscheidende Hinweise dar, um eine Umgebung zu verstehen. In diesem Paper präsentieren wir einen neuen Ansatz für Dense Video Captioning, der beliebig viele Modalitäten zur Ereignisbeschreibung nutzen kann. Konkret zeigen wir, wie Audio- und Sprachmodalitäten ein Dense Video Captioning-Modell verbessern können. Wir setzen ein automatisches Spracherkennungssystem (ASR) ein, um eine zeitlich synchronisierte textuelle Beschreibung der Sprache zu erhalten (ähnlich wie Untertitel), die als separater Eingabedatenstrom neben den Videoframes und der entsprechenden Audiospur verwendet wird. Wir formulieren die Captioning-Aufgabe als maschinelle Übersetzungsproblematik und nutzen die kürzlich vorgeschlagene Transformer-Architektur, um multimodale Eingabedaten in textuelle Beschreibungen zu transformieren. Wir demonstrieren die Leistungsfähigkeit unseres Modells am ActivityNet Captions-Datensatz. Ablationsstudien zeigen einen erheblichen Beitrag der Audio- und Sprachkomponenten, was darauf hindeutet, dass diese Modalitäten erhebliche ergänzende Informationen gegenüber den Videoframes enthalten. Zudem führen wir eine detaillierte Analyse der ActivityNet Caption-Ergebnisse durch, indem wir die Kategorietags aus den ursprünglichen YouTube-Videos nutzen. Der Quellcode ist öffentlich verfügbar: github.com/v-iashin/MDVC