HyperAIHyperAI
vor 2 Monaten

CLIP-It! Sprachgesteuerte Videozusammenfassung

Medhini Narasimhan; Anna Rohrbach; Trevor Darrell
CLIP-It! Sprachgesteuerte Videozusammenfassung
Abstract

Ein generisches Videosummary ist eine gekürzte Version eines Videos, die die gesamte Geschichte vermittelt und die wichtigsten Szenen enthält. Die Wichtigkeit von Szenen in einem Video ist jedoch oft subjektiv, und Benutzer sollten die Möglichkeit haben, das Summary durch die Verwendung natürlicher Sprache anzupassen, um zu spezifizieren, was für sie wichtig ist. Darüber hinaus haben bisherige Modelle für vollautomatische generische Zusammenfassungen die verfügbaren Sprachmodelle nicht genutzt, die als effektive Vorinformation für die Bedeutsamkeit dienen können. In dieser Arbeit stellen wir CLIP-It vor, ein einheitliches Framework zur Bearbeitung sowohl generischer als auch anfrageorientierter Videosummarisierung, welche in der Literatur üblicherweise getrennt behandelt werden. Wir schlagen einen sprachgesteuerten multimodalen Transformer vor, der lernt, Frames in einem Video auf Basis ihrer relativen Wichtigkeit zueinander und ihrer Korrelation mit einer benutzerdefinierten Anfrage (für anfrageorientierte Zusammenfassung) oder einer automatisch generierten dichten Videobeschreibung (für generische Videosummarys) zu bewerten. Unser Modell kann in den unüberwachten Bereich erweitert werden, indem es ohne Ground-Truth-Supervision trainiert wird. Wir übertreffen Baseline-Modelle und frühere Arbeiten erheblich sowohl auf Standard-Datensätzen für Videosummarisierung (TVSum und SumMe) als auch auf einem Datensatz für anfrageorientierte Videosummarisierung (QFVS). Insbesondere erreichen wir große Verbesserungen im Transfer-Setting, was die starken Generalisierungsfähigkeiten unserer Methode bestätigt.

CLIP-It! Sprachgesteuerte Videozusammenfassung | Neueste Forschungsarbeiten | HyperAI