HyperAIHyperAI

Command Palette

Search for a command to run...

SEM-POS: Grammatikalisch und semantisch korrekte Video-Beschreibung

Asmar Nadeem Adrian Hilton Robert Dawes Graham Thomas Armin Mustafa

Zusammenfassung

Die Erzeugung grammatikalisch und semantisch korrekter Captions im Bereich des Video-Captioning stellt eine herausfordernde Aufgabe dar. Die von bestehenden Methoden generierten Captions sind entweder wortweise und weisen keine korrekte grammatische Struktur auf oder verpassen zentrale Informationen aus den Eingabevideos. Um diese Probleme zu lösen, führen wir ein neuartiges Global-Local-Fusionsnetzwerk mit einem Global-Local-Fusion-Block (GLFB) ein, der Merkmale verschiedener Satzgliedkomponenten (Part-of-Speech, POS) mit visuellen, räumlichen Merkmalen kodiert und fusioniert. Wir nutzen neuartige Kombinationen verschiedener POS-Komponenten – „Determinativ + Subjekt“, „Hilfsverb“, „Verb“ und „Determinativ + Objekt“ – zur Supervision der entsprechenden POS-Blöcke: Det + Subject, Aux Verb, Verb und Det + Object. Das neuartige Global-Local-Fusionsnetzwerk zusammen mit den POS-Blöcken unterstützt die Ausrichtung visueller Merkmale mit sprachlichen Beschreibungen, um grammatikalisch und semantisch korrekte Captions zu generieren. Umfangreiche qualitative und quantitative Experimente auf den Standard-Datensätzen MSVD und MSRVTT zeigen, dass der vorgeschlagene Ansatz im Vergleich zu bestehenden Methoden signifikant grammatisch und semantisch korrektere Captions erzeugt und damit eine neue State-of-the-Art erreicht. Ablationsstudien zu den POS-Blöcken und dem GLFB belegen den Beitrag der einzelnen Komponenten zum Gesamtergebnis.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp