HyperAIHyperAI

Command Palette

Search for a command to run...

MART: Memory-Augmented Recurrent Transformer für kohärente Video-Paragraph-Annotation

Jie Lei Liwei Wang Yelong Shen Dong Yu Tamara L. Berg Mohit Bansal

Zusammenfassung

Die Erzeugung von mehrsätzigem Beschreibungen für Videos gilt als eine der anspruchsvollsten Aufgaben im Bereich der Bildunterschriftenerzeugung, da sie nicht nur eine hohe visuelle Relevanz, sondern auch eine diskursbasierte Kohärenz zwischen den Sätzen innerhalb eines Absatzes erfordert. In diesem Zusammenhang stellen wir einen neuen Ansatz namens Memory-Augmented Recurrent Transformer (MART) vor, der ein Speichermodul zur Erweiterung der Transformer-Architektur nutzt. Das Speichermodul generiert aus den Videoabschnitten und der Historie der bereits erzeugten Sätze einen hochgradig komprimierten Speicherzustand, der die präzisere Vorhersage des nächsten Satzes (insbesondere hinsichtlich der Kernreferenz und Wiederholung) unterstützt und somit eine kohärente Absatzgenerierung fördert. Umfangreiche Experimente, menschliche Bewertungen sowie qualitative Analysen auf zwei etablierten Datensätzen – ActivityNet Captions und YouCookII – zeigen, dass MART im Vergleich zu Basismethoden kohärentere und weniger repetitive Absatzbeschreibungen erzeugt, während gleichzeitig die Relevanz gegenüber den Eingabevideoevents gewahrt bleibt. Der gesamte Quellcode ist Open-Source unter folgender Adresse verfügbar: https://github.com/jayleicn/recurrent-transformer


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp