End-to-End Dichte Video-Beschreibung mit Maskiertem Transformer

Dichte Video-Beschreibung (dense video captioning) zielt darauf ab, Textbeschreibungen für alle Ereignisse in einem ungeschnittenen Video zu generieren. Dies umfasst sowohl die Erkennung als auch die Beschreibung von Ereignissen. Daher beschäftigen sich alle bisherigen Methoden der dichten Video-Beschreibung mit diesem Problem, indem sie zwei Modelle – ein Ereignisvorschlagsmodell und ein Beschreibungsmodell – für diese beiden Teilprobleme aufbauen. Die Modelle werden entweder getrennt oder abwechselnd trainiert. Dies verhindert jedoch einen direkten Einfluss der sprachlichen Beschreibung auf den Ereignisvorschlag, was für die Erstellung genauer Beschreibungen wichtig ist. Um dieses Problem zu lösen, schlagen wir ein end-to-end Transformer-Modell für dichte Video-Beschreibung vor. Der Encoder kodiert das Video in angemessene Darstellungen. Der Vorschlagsdecoder dekodiert aus der Kodierung mit verschiedenen Ankers (anchors), um Video-Ereignisvorschläge zu bilden. Der Captioning-Decoder verwendet ein Maskierungsnetzwerk, um seine Aufmerksamkeit während des Dekodierens auf das vorgeschlagene Ereignis zu beschränken. Dieses Maskierungsnetzwerk konvertiert den Ereignisvorschlag in eine differenzierbare Maske, die während des Trainings die Konsistenz zwischen Vorschlag und Beschreibung gewährleistet. Zudem setzt unser Modell ein Selbst-Aufmerksamkeitsmechanismus (self-attention mechanism) ein, der es ermöglicht, während der Kodierung eine effiziente nicht-rekurrente Struktur zu verwenden und zu Leistungsverbesserungen führt. Wir demonstrieren die Effektivität dieses end-to-end Modells anhand der Datensätze ActivityNet Captions und YouCookII, wo wir jeweils 10,12 und 6,58 METEOR-Score erreicht haben.