HyperAIHyperAI
vor 7 Tagen

Genau und schnell komprimierte Videobeschreibung

Yaojie Shen, Xin Gu, Kai Xu, Heng Fan, Longyin Wen, Libo Zhang
Genau und schnell komprimierte Videobeschreibung
Abstract

Bekannte Ansätze zur Video-Text-Beschreibung erfordern typischerweise zunächst die manuelle Auswahl von Videobildern aus einem decodierten Video, gefolgt von einem nachgeschalteten Prozess (z. B. Merkmalsextraktion und/oder Lernen eines Text-Beschreibung-Modells). In dieser Pipeline kann die manuelle Bildauswahl Schlüsselinformationen im Video übersehen und somit die Leistung beeinträchtigen. Zudem führt der überflüssige Informationsgehalt in den ausgewählten Bildern zu einer geringen Effizienz bei der Inferenz der Video-Text-Beschreibung. Um dieses Problem anzugehen, untersuchen wir die Video-Text-Beschreibung aus einer anderen Perspektive im komprimierten Bereich, was gegenüber dem etablierten Ansatz mehrfache Vorteile bietet: 1) Im Gegensatz zu Rohbildern aus dem decodierten Video ist das komprimierte Video – bestehend aus I-Bildern, Bewegungsvektoren und Restwerten – hoch differenzierbar, was es ermöglicht, das gesamte Video für das Lernen zu nutzen, ohne manuelle Bildauswahl, durch eine speziell entwickelte Modellarchitektur; 2) Das Beschreibung-Modell ist bei der Inferenz effizienter, da weniger und weniger redundant verarbeitete Informationen vorliegen. Wir schlagen einen einfachen, aber leistungsfähigen end-to-end Transformer im komprimierten Bereich für die Video-Text-Beschreibung vor, der das Lernen direkt aus dem komprimierten Video ermöglicht. Wir zeigen, dass selbst mit einer einfachen Architektur unsere Methode auf verschiedenen Benchmarks die derzeit beste Leistung erzielt und dabei fast doppelt so schnell arbeitet wie bestehende Ansätze. Der Quellcode ist unter https://github.com/acherstyx/CoCap verfügbar.