HyperAIHyperAI

Command Palette

Search for a command to run...

Kurze Geschichte, großer Erfolg: Eine Methode zur Zusammenfassung und anschließenden Suche für die Beantwortung von Fragen zu langen Videos

Jiwan Chung Youngjae Yu

Zusammenfassung

Große Sprachmodelle wie GPT-3 haben eine beeindruckende Fähigkeit gezeigt, sich neuen Aufgaben anzupassen, ohne spezifische Trainingsdaten für diese Aufgaben zu benötigen. Diese Fähigkeit hat sich insbesondere in Szenarien wie der narrativen Fragebeantwortung bewährt, wo die Vielfalt der Aufgaben groß ist, aber die verfügbaren Supervisionsdaten begrenzt sind. In dieser Arbeit untersuchen wir, ob solche Sprachmodelle ihre zero-shot-Schließfähigkeiten auf lange multimodale Erzählungen in multimedialen Inhalten wie Dramen, Filmen und Animationen erweitern können, bei denen die Geschichte eine wesentliche Rolle spielt. Wir schlagen Long Story Short vor, einen Rahmen für narrativen Video-Fragebeantwortung (narrative video QA), der zunächst das Narrativ des Videos zu einem kurzen Handlungsstrang zusammenfasst und dann relevante Teile des Videos zur beantworteten Frage sucht. Darüber hinaus schlagen wir vor, die visuelle Zuordnung mit CLIPCheck zu verbessern. Unser Modell übertrifft state-of-the-art-supervisierte Modelle um ein großes Maß, was das Potenzial von zero-shot-Fragebeantwortung für lange Videos unterstreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp