HyperAIHyperAI

Command Palette

Search for a command to run...

End-to-End Dense Video Captioning als Sequenzgenerierung

Wanrong Zhu Bo Pang Ashish V. Thapliyal William Yang Wang Radu Soricut

Zusammenfassung

Dichte Video-Kommentierung zielt darauf ab, die interessanten Ereignisse in einem Eingabevideo zu identifizieren und für jedes Ereignis beschreibende Caption-Texte zu generieren. Bisherige Ansätze folgen in der Regel einem zweistufigen generativen Prozess, bei dem zunächst Segmente für jedes Ereignis vorgeschlagen werden, gefolgt von der Erzeugung einer Beschreibung für jedes identifizierte Segment. In jüngster Zeit haben Fortschritte im Bereich der großskaligen Vorausführung für Sequenzgenerierung erhebliche Erfolge bei der Vereinheitlichung der Aufgabenformulierung für eine Vielzahl von Aufgaben gezeigt. Bisher konnten jedoch komplexere Aufgaben wie die dichte Video-Kommentierung dieses leistungsfähige Paradigma nicht vollständig nutzen. In dieser Arbeit zeigen wir, wie die beiden Teilaspekte der dichten Video-Kommentierung gemeinsam als eine einzige Sequenzgenerierungsaufgabe modelliert werden können, wobei Ereignisse und ihre entsprechenden Beschreibungen gleichzeitig vorhergesagt werden. Experimente auf den Datensätzen YouCook2 und ViTT erbringen vielversprechende Ergebnisse und belegen die Machbarkeit, komplexe Aufgaben wie end-to-end dichte Video-Kommentierung in großskalig vortrainierte Modelle zu integrieren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp