HyperAIHyperAI
vor 2 Monaten

Retrieving-to-Answer: Zero-Shot Video Fragebeantwortung mit gefrorenen großen Sprachmodellen

Junting Pan; Ziyi Lin; Yuying Ge; Xiatian Zhu; Renrui Zhang; Yi Wang; Yu Qiao; Hongsheng Li
Retrieving-to-Answer: Zero-Shot Video Fragebeantwortung mit gefrorenen großen Sprachmodellen
Abstract

Das Video-Frage-Antworten (VideoQA) wurde durch die Skalierung aktueller großer Sprachmodelle (LLMs) erheblich verbessert. Das Kernkonzept besteht darin, die visuelle Information in den Sprachmerkmalsraum zu konvertieren, um die Kapazität der LLMs vollständig auszuschöpfen. Bestehende VideoQA-Methoden folgen in der Regel einem von zwei Paradigmen: (1) das Lernen der multimodalen Ausrichtung und (2) die Verwendung eines fertigen Beschreibungsmodells zur Beschreibung der visuellen Daten. Das erste Design erfordert jedoch aufwendiges Training mit vielen zusätzlichen multimodalen Daten, während das zweite durch eine begrenzte Domänenverallgemeinerung weiter eingeschränkt ist. Um diese Einschränkungen zu überwinden, wird ein einfaches und effektives Retrieval-to-Answer (R2A)-Framework vorgeschlagen. Bei einer Eingabevideo wird zunächst mithilfe eines vortrainierten multimodalen Modells (z.B. CLIP) eine Reihe semantisch ähnlicher Texte aus einem generischen Textkorpus abgerufen. Mit sowohl der Frage als auch den abgerufenen Texten kann ein LLM (z.B. DeBERTa) direkt verwendet werden, um eine gewünschte Antwort zu generieren. Ohne die Notwendigkeit einer multimodalen Feinabstimmung ermöglicht R2A es, alle wesentlichen Komponenten (z.B. LLM, Retrieval-Modell und Textkorpus) einzusetzen und austauschbar zu machen. Umfangreiche Experimente auf mehreren VideoQA-Benchmarks zeigen, dass unser R2A trotz seiner 1,3 Milliarden Parameter und ohne Feinabstimmung das 61-mal größere Flamingo-80B-Modell übertreffen kann, das zusätzlich auf fast 2,1 Milliarden multimodaler Daten trainiert wurde.

Retrieving-to-Answer: Zero-Shot Video Fragebeantwortung mit gefrorenen großen Sprachmodellen | Neueste Forschungsarbeiten | HyperAI