End-to-End Dense Video Captioning als Sequenzgenerierung

Dichte Video-Kommentierung zielt darauf ab, die interessanten Ereignisse in einem Eingabevideo zu identifizieren und für jedes Ereignis beschreibende Caption-Texte zu generieren. Bisherige Ansätze folgen in der Regel einem zweistufigen generativen Prozess, bei dem zunächst Segmente für jedes Ereignis vorgeschlagen werden, gefolgt von der Erzeugung einer Beschreibung für jedes identifizierte Segment. In jüngster Zeit haben Fortschritte im Bereich der großskaligen Vorausführung für Sequenzgenerierung erhebliche Erfolge bei der Vereinheitlichung der Aufgabenformulierung für eine Vielzahl von Aufgaben gezeigt. Bisher konnten jedoch komplexere Aufgaben wie die dichte Video-Kommentierung dieses leistungsfähige Paradigma nicht vollständig nutzen. In dieser Arbeit zeigen wir, wie die beiden Teilaspekte der dichten Video-Kommentierung gemeinsam als eine einzige Sequenzgenerierungsaufgabe modelliert werden können, wobei Ereignisse und ihre entsprechenden Beschreibungen gleichzeitig vorhergesagt werden. Experimente auf den Datensätzen YouCook2 und ViTT erbringen vielversprechende Ergebnisse und belegen die Machbarkeit, komplexe Aufgaben wie end-to-end dichte Video-Kommentierung in großskalig vortrainierte Modelle zu integrieren.