HyperAIHyperAI
vor 2 Monaten

Kurze Geschichte, großer Erfolg: Eine Methode zur Zusammenfassung und anschließenden Suche für die Beantwortung von Fragen zu langen Videos

Jiwan Chung; Youngjae Yu
Kurze Geschichte, großer Erfolg: Eine Methode zur Zusammenfassung und anschließenden Suche für die Beantwortung von Fragen zu langen Videos
Abstract

Große Sprachmodelle wie GPT-3 haben eine beeindruckende Fähigkeit gezeigt, sich neuen Aufgaben anzupassen, ohne spezifische Trainingsdaten für diese Aufgaben zu benötigen. Diese Fähigkeit hat sich insbesondere in Szenarien wie der narrativen Fragebeantwortung bewährt, wo die Vielfalt der Aufgaben groß ist, aber die verfügbaren Supervisionsdaten begrenzt sind. In dieser Arbeit untersuchen wir, ob solche Sprachmodelle ihre zero-shot-Schließfähigkeiten auf lange multimodale Erzählungen in multimedialen Inhalten wie Dramen, Filmen und Animationen erweitern können, bei denen die Geschichte eine wesentliche Rolle spielt. Wir schlagen Long Story Short vor, einen Rahmen für narrativen Video-Fragebeantwortung (narrative video QA), der zunächst das Narrativ des Videos zu einem kurzen Handlungsstrang zusammenfasst und dann relevante Teile des Videos zur beantworteten Frage sucht. Darüber hinaus schlagen wir vor, die visuelle Zuordnung mit CLIPCheck zu verbessern. Unser Modell übertrifft state-of-the-art-supervisierte Modelle um ein großes Maß, was das Potenzial von zero-shot-Fragebeantwortung für lange Videos unterstreicht.

Kurze Geschichte, großer Erfolg: Eine Methode zur Zusammenfassung und anschließenden Suche für die Beantwortung von Fragen zu langen Videos | Neueste Forschungsarbeiten | HyperAI