End-to-End Dense Video Captioning mit paralleler Decodierung

Dichte Videobeschreibung (dense video captioning) zielt darauf ab, mehrere zugehörige Beschreibungen mit ihren jeweiligen zeitlichen Positionen aus einem Video zu generieren. Frühere Ansätze folgen einer komplexen „lokalisieren-dann-beschreiben“-Strategie, die stark auf zahlreiche handkodierte Komponenten angewiesen ist. In diesem Artikel stellen wir einen einfachen, aber wirksamen Ansatz für eine end-to-end-dichte Videobeschreibung mit paralleler Dekodierung (PDVC) vor, indem wir die Generierung dichter Beschreibungen als eine Mengenvorhersageaufgabe formulieren. In der Praxis ermöglicht die Schichtung eines neu vorgeschlagenen Ereigniszählers auf einem Transformer-Decoder eine präzise Segmentierung des Videos in eine Reihe von Ereignisabschnitten unter Berücksichtigung des Gesamtzusammenhangs des Videoinhalts. Dadurch wird die Kohärenz und Lesbarkeit der vorhergesagten Beschreibungen erheblich verbessert. Im Vergleich zu vorherigen Ansätzen bietet PDVC mehrere vorteilhafte Eigenschaften: (1) Ohne auf heuristische Verfahren wie nicht-maximale Unterdrückung oder ein rekurrentes Netzwerk zur Auswahl von Ereignissequenzen zurückzugreifen, erzeugt PDVC direkt eine Ereignismenge mit einer angemessenen Größe; (2) Im Gegensatz zu zweistufigen Ansätzen werden die verbesserten Repräsentationen der Ereignisabfragen parallel in den Lokalisierungs- und die Beschreibungskopf eingespeist, wodurch diese beiden Teilprozesse durch die Optimierung tiefgreifend miteinander verknüpft und gegenseitig gefördert werden; (3) Ohne zusätzliche technische Spielereien zeigen umfangreiche Experimente auf ActivityNet Captions und YouCook2, dass PDVC in der Lage ist, qualitativ hochwertige Beschreibungen zu erzeugen, und die derzeit besten zweistufigen Methoden übertreffen kann, wenn die Lokalisierungsgenauigkeit mit ihnen vergleichbar ist. Der Quellcode ist unter https://github.com/ttengwang/PDVC verfügbar.