vor 8 Monaten

Zusammenfassung

Große Sprachmodelle wie GPT-3 haben eine beeindruckende Fähigkeit gezeigt, sich neuen Aufgaben anzupassen, ohne spezifische Trainingsdaten für diese Aufgaben zu benötigen. Diese Fähigkeit hat sich insbesondere in Szenarien wie der narrativen Fragebeantwortung bewährt, wo die Vielfalt der Aufgaben groß ist, aber die verfügbaren Supervisionsdaten begrenzt sind. In dieser Arbeit untersuchen wir, ob solche Sprachmodelle ihre zero-shot-Schließfähigkeiten auf lange multimodale Erzählungen in multimedialen Inhalten wie Dramen, Filmen und Animationen erweitern können, bei denen die Geschichte eine wesentliche Rolle spielt. Wir schlagen Long Story Short vor, einen Rahmen für narrativen Video-Fragebeantwortung (narrative video QA), der zunächst das Narrativ des Videos zu einem kurzen Handlungsstrang zusammenfasst und dann relevante Teile des Videos zur beantworteten Frage sucht. Darüber hinaus schlagen wir vor, die visuelle Zuordnung mit CLIPCheck zu verbessern. Unser Modell übertrifft state-of-the-art-supervisierte Modelle um ein großes Maß, was das Potenzial von zero-shot-Fragebeantwortung für lange Videos unterstreicht.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Visuelle Fragebeantwortung

Retrieval-Augmented Generation

Jiwan Chung Youngjae Yu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Visuelle Fragebeantwortung

Retrieval-Augmented Generation

Jiwan Chung Youngjae Yu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Kurze Geschichte, großer Erfolg: Eine Methode zur Zusammenfassung und anschließenden Suche für die Beantwortung von Fragen zu langen Videos

Jiwan Chung Youngjae Yu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Kurze Geschichte, großer Erfolg: Eine Methode zur Zusammenfassung und anschließenden Suche für die Beantwortung von Fragen zu langen Videos

Jiwan Chung Youngjae Yu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Kurze Geschichte, großer Erfolg: Eine Methode zur Zusammenfassung und anschließenden Suche für die Beantwortung von Fragen zu langen Videos

Jiwan Chung Youngjae Yu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters