HyperAIHyperAI

Command Palette

Search for a command to run...

End-to-End Dichte Video-Beschreibung mit Maskiertem Transformer

Luowei Zhou* Yingbo Zhou* Jason J. Corso Richard Socher Caiming Xiong†

Zusammenfassung

Dichte Video-Beschreibung (dense video captioning) zielt darauf ab, Textbeschreibungen für alle Ereignisse in einem ungeschnittenen Video zu generieren. Dies umfasst sowohl die Erkennung als auch die Beschreibung von Ereignissen. Daher beschäftigen sich alle bisherigen Methoden der dichten Video-Beschreibung mit diesem Problem, indem sie zwei Modelle – ein Ereignisvorschlagsmodell und ein Beschreibungsmodell – für diese beiden Teilprobleme aufbauen. Die Modelle werden entweder getrennt oder abwechselnd trainiert. Dies verhindert jedoch einen direkten Einfluss der sprachlichen Beschreibung auf den Ereignisvorschlag, was für die Erstellung genauer Beschreibungen wichtig ist. Um dieses Problem zu lösen, schlagen wir ein end-to-end Transformer-Modell für dichte Video-Beschreibung vor. Der Encoder kodiert das Video in angemessene Darstellungen. Der Vorschlagsdecoder dekodiert aus der Kodierung mit verschiedenen Ankers (anchors), um Video-Ereignisvorschläge zu bilden. Der Captioning-Decoder verwendet ein Maskierungsnetzwerk, um seine Aufmerksamkeit während des Dekodierens auf das vorgeschlagene Ereignis zu beschränken. Dieses Maskierungsnetzwerk konvertiert den Ereignisvorschlag in eine differenzierbare Maske, die während des Trainings die Konsistenz zwischen Vorschlag und Beschreibung gewährleistet. Zudem setzt unser Modell ein Selbst-Aufmerksamkeitsmechanismus (self-attention mechanism) ein, der es ermöglicht, während der Kodierung eine effiziente nicht-rekurrente Struktur zu verwenden und zu Leistungsverbesserungen führt. Wir demonstrieren die Effektivität dieses end-to-end Modells anhand der Datensätze ActivityNet Captions und YouCookII, wo wir jeweils 10,12 und 6,58 METEOR-Score erreicht haben.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp