MART: Memory-Augmented Recurrent Transformer für kohärente Video-Paragraph-Annotation

Die Erzeugung von mehrsätzigem Beschreibungen für Videos gilt als eine der anspruchsvollsten Aufgaben im Bereich der Bildunterschriftenerzeugung, da sie nicht nur eine hohe visuelle Relevanz, sondern auch eine diskursbasierte Kohärenz zwischen den Sätzen innerhalb eines Absatzes erfordert. In diesem Zusammenhang stellen wir einen neuen Ansatz namens Memory-Augmented Recurrent Transformer (MART) vor, der ein Speichermodul zur Erweiterung der Transformer-Architektur nutzt. Das Speichermodul generiert aus den Videoabschnitten und der Historie der bereits erzeugten Sätze einen hochgradig komprimierten Speicherzustand, der die präzisere Vorhersage des nächsten Satzes (insbesondere hinsichtlich der Kernreferenz und Wiederholung) unterstützt und somit eine kohärente Absatzgenerierung fördert. Umfangreiche Experimente, menschliche Bewertungen sowie qualitative Analysen auf zwei etablierten Datensätzen – ActivityNet Captions und YouCookII – zeigen, dass MART im Vergleich zu Basismethoden kohärentere und weniger repetitive Absatzbeschreibungen erzeugt, während gleichzeitig die Relevanz gegenüber den Eingabevideoevents gewahrt bleibt. Der gesamte Quellcode ist Open-Source unter folgender Adresse verfügbar: https://github.com/jayleicn/recurrent-transformer