HyperAIHyperAI
vor 2 Monaten

Live-Videobeschreibung

Blanco-Fernández, Eduardo ; Gutiérrez-Álvarez, Carlos ; Nasri, Nadia ; Maldonado-Bascón, Saturnino ; López-Sastre, Roberto J.
Live-Videobeschreibung
Abstract

Dichte Videobeschreibung beinhaltet die Erkennung und Beschreibung von Ereignissen innerhalb von Videosequenzen. Traditionelle Methoden arbeiten in einem Offline-Szenario, unter der Annahme, dass das gesamte Video für die Analyse verfügbar ist. Im Gegensatz dazu führen wir in dieser Arbeit ein bahnbrechendes Paradigma ein: Live-Videobeschreibung (LVC), bei der Beschriftungen für Videostreams in Echtzeit generiert werden müssen. Dieser Wandel bringt einzigartige Herausforderungen mit sich, darunter die Verarbeitung teilweiser Beobachtungen von Ereignissen und die Notwendigkeit einer zeitlichen Antizipation der Aktionen. Wir definieren das neuartige Problem der LVC formell und schlagen innovative Bewertungsmaßstäbe vor, die speziell für dieses Online-Szenario entwickelt wurden, wobei wir deren Vorteile gegenüber traditionellen Maßstäben aufzeigen. Um die neuen Komplexitäten der LVC zu bewältigen, präsentieren wir ein neues Modell, das deformierbare Transformer mit zeitlicher Filterung kombiniert, um effektive Beschriftungen über Videostreams zu ermöglichen. Ausführliche Experimente am ActivityNet Captions Datensatz bestätigen den vorgeschlagenen Ansatz und zeigen seine überlegene Leistung im LVC-Szenario im Vergleich zu den besten Offline-Methoden. Um weitere Forschung zu fördern, stellen wir die Ergebnisse unseres Modells sowie ein Evaluierungstoolkit mit den neuen Maßstäben integriert zur Verfügung unter: https://github.com/gramuah/lvc.

Live-Videobeschreibung | Neueste Forschungsarbeiten | HyperAI