HyperAIHyperAI

Command Palette

Search for a command to run...

Retrieving-to-Answer: Zero-Shot Video Fragebeantwortung mit gefrorenen großen Sprachmodellen

Junting Pan Ziyi Lin Yuying Ge Xiatian Zhu Renrui Zhang Yi Wang Yu Qiao Hongsheng Li

Zusammenfassung

Das Video-Frage-Antworten (VideoQA) wurde durch die Skalierung aktueller großer Sprachmodelle (LLMs) erheblich verbessert. Das Kernkonzept besteht darin, die visuelle Information in den Sprachmerkmalsraum zu konvertieren, um die Kapazität der LLMs vollständig auszuschöpfen. Bestehende VideoQA-Methoden folgen in der Regel einem von zwei Paradigmen: (1) das Lernen der multimodalen Ausrichtung und (2) die Verwendung eines fertigen Beschreibungsmodells zur Beschreibung der visuellen Daten. Das erste Design erfordert jedoch aufwendiges Training mit vielen zusätzlichen multimodalen Daten, während das zweite durch eine begrenzte Domänenverallgemeinerung weiter eingeschränkt ist. Um diese Einschränkungen zu überwinden, wird ein einfaches und effektives Retrieval-to-Answer (R2A)-Framework vorgeschlagen. Bei einer Eingabevideo wird zunächst mithilfe eines vortrainierten multimodalen Modells (z.B. CLIP) eine Reihe semantisch ähnlicher Texte aus einem generischen Textkorpus abgerufen. Mit sowohl der Frage als auch den abgerufenen Texten kann ein LLM (z.B. DeBERTa) direkt verwendet werden, um eine gewünschte Antwort zu generieren. Ohne die Notwendigkeit einer multimodalen Feinabstimmung ermöglicht R2A es, alle wesentlichen Komponenten (z.B. LLM, Retrieval-Modell und Textkorpus) einzusetzen und austauschbar zu machen. Umfangreiche Experimente auf mehreren VideoQA-Benchmarks zeigen, dass unser R2A trotz seiner 1,3 Milliarden Parameter und ohne Feinabstimmung das 61-mal größere Flamingo-80B-Modell übertreffen kann, das zusätzlich auf fast 2,1 Milliarden multimodaler Daten trainiert wurde.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp