HyperAIHyperAI
vor 7 Tagen

SEM-POS: Grammatikalisch und semantisch korrekte Video-Beschreibung

Asmar Nadeem, Adrian Hilton, Robert Dawes, Graham Thomas, Armin Mustafa
SEM-POS: Grammatikalisch und semantisch korrekte Video-Beschreibung
Abstract

Die Erzeugung grammatikalisch und semantisch korrekter Captions im Bereich des Video-Captioning stellt eine herausfordernde Aufgabe dar. Die von bestehenden Methoden generierten Captions sind entweder wortweise und weisen keine korrekte grammatische Struktur auf oder verpassen zentrale Informationen aus den Eingabevideos. Um diese Probleme zu lösen, führen wir ein neuartiges Global-Local-Fusionsnetzwerk mit einem Global-Local-Fusion-Block (GLFB) ein, der Merkmale verschiedener Satzgliedkomponenten (Part-of-Speech, POS) mit visuellen, räumlichen Merkmalen kodiert und fusioniert. Wir nutzen neuartige Kombinationen verschiedener POS-Komponenten – „Determinativ + Subjekt“, „Hilfsverb“, „Verb“ und „Determinativ + Objekt“ – zur Supervision der entsprechenden POS-Blöcke: Det + Subject, Aux Verb, Verb und Det + Object. Das neuartige Global-Local-Fusionsnetzwerk zusammen mit den POS-Blöcken unterstützt die Ausrichtung visueller Merkmale mit sprachlichen Beschreibungen, um grammatikalisch und semantisch korrekte Captions zu generieren. Umfangreiche qualitative und quantitative Experimente auf den Standard-Datensätzen MSVD und MSRVTT zeigen, dass der vorgeschlagene Ansatz im Vergleich zu bestehenden Methoden signifikant grammatisch und semantisch korrektere Captions erzeugt und damit eine neue State-of-the-Art erreicht. Ablationsstudien zu den POS-Blöcken und dem GLFB belegen den Beitrag der einzelnen Komponenten zum Gesamtergebnis.