vor 6 Monaten

Zusammenfassung

Die Erzeugung grammatikalisch und semantisch korrekter Captions im Bereich des Video-Captioning stellt eine herausfordernde Aufgabe dar. Die von bestehenden Methoden generierten Captions sind entweder wortweise und weisen keine korrekte grammatische Struktur auf oder verpassen zentrale Informationen aus den Eingabevideos. Um diese Probleme zu lösen, führen wir ein neuartiges Global-Local-Fusionsnetzwerk mit einem Global-Local-Fusion-Block (GLFB) ein, der Merkmale verschiedener Satzgliedkomponenten (Part-of-Speech, POS) mit visuellen, räumlichen Merkmalen kodiert und fusioniert. Wir nutzen neuartige Kombinationen verschiedener POS-Komponenten – „Determinativ + Subjekt“, „Hilfsverb“, „Verb“ und „Determinativ + Objekt“ – zur Supervision der entsprechenden POS-Blöcke: Det + Subject, Aux Verb, Verb und Det + Object. Das neuartige Global-Local-Fusionsnetzwerk zusammen mit den POS-Blöcken unterstützt die Ausrichtung visueller Merkmale mit sprachlichen Beschreibungen, um grammatikalisch und semantisch korrekte Captions zu generieren. Umfangreiche qualitative und quantitative Experimente auf den Standard-Datensätzen MSVD und MSRVTT zeigen, dass der vorgeschlagene Ansatz im Vergleich zu bestehenden Methoden signifikant grammatisch und semantisch korrektere Captions erzeugt und damit eine neue State-of-the-Art erreicht. Ablationsstudien zu den POS-Blöcken und dem GLFB belegen den Beitrag der einzelnen Komponenten zum Gesamtergebnis.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Asmar Nadeem Adrian Hilton Robert Dawes Graham Thomas Armin Mustafa

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Asmar Nadeem Adrian Hilton Robert Dawes Graham Thomas Armin Mustafa

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

SEM-POS: Grammatikalisch und semantisch korrekte Video-Beschreibung

Asmar Nadeem Adrian Hilton Robert Dawes Graham Thomas Armin Mustafa

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

SEM-POS: Grammatikalisch und semantisch korrekte Video-Beschreibung

Asmar Nadeem Adrian Hilton Robert Dawes Graham Thomas Armin Mustafa

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

SEM-POS: Grammatikalisch und semantisch korrekte Video-Beschreibung

Asmar Nadeem Adrian Hilton Robert Dawes Graham Thomas Armin Mustafa

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters