vor 8 Monaten

Zusammenfassung

Das Video-Frage-Antworten (VideoQA) wurde durch die Skalierung aktueller großer Sprachmodelle (LLMs) erheblich verbessert. Das Kernkonzept besteht darin, die visuelle Information in den Sprachmerkmalsraum zu konvertieren, um die Kapazität der LLMs vollständig auszuschöpfen. Bestehende VideoQA-Methoden folgen in der Regel einem von zwei Paradigmen: (1) das Lernen der multimodalen Ausrichtung und (2) die Verwendung eines fertigen Beschreibungsmodells zur Beschreibung der visuellen Daten. Das erste Design erfordert jedoch aufwendiges Training mit vielen zusätzlichen multimodalen Daten, während das zweite durch eine begrenzte Domänenverallgemeinerung weiter eingeschränkt ist. Um diese Einschränkungen zu überwinden, wird ein einfaches und effektives Retrieval-to-Answer (R2A)-Framework vorgeschlagen. Bei einer Eingabevideo wird zunächst mithilfe eines vortrainierten multimodalen Modells (z.B. CLIP) eine Reihe semantisch ähnlicher Texte aus einem generischen Textkorpus abgerufen. Mit sowohl der Frage als auch den abgerufenen Texten kann ein LLM (z.B. DeBERTa) direkt verwendet werden, um eine gewünschte Antwort zu generieren. Ohne die Notwendigkeit einer multimodalen Feinabstimmung ermöglicht R2A es, alle wesentlichen Komponenten (z.B. LLM, Retrieval-Modell und Textkorpus) einzusetzen und austauschbar zu machen. Umfangreiche Experimente auf mehreren VideoQA-Benchmarks zeigen, dass unser R2A trotz seiner 1,3 Milliarden Parameter und ohne Feinabstimmung das 61-mal größere Flamingo-80B-Modell übertreffen kann, das zusätzlich auf fast 2,1 Milliarden multimodaler Daten trainiert wurde.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Visuelle Fragebeantwortung

Retrieval-Augmented Generation

Junting Pan Ziyi Lin Yuying Ge Xiatian Zhu Renrui Zhang Yi Wang Yu Qiao Hongsheng Li

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Visuelle Fragebeantwortung

Retrieval-Augmented Generation

Junting Pan Ziyi Lin Yuying Ge Xiatian Zhu Renrui Zhang Yi Wang Yu Qiao Hongsheng Li

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Retrieving-to-Answer: Zero-Shot Video Fragebeantwortung mit gefrorenen großen Sprachmodellen

Junting Pan Ziyi Lin Yuying Ge Xiatian Zhu Renrui Zhang Yi Wang Yu Qiao Hongsheng Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Retrieving-to-Answer: Zero-Shot Video Fragebeantwortung mit gefrorenen großen Sprachmodellen

Junting Pan Ziyi Lin Yuying Ge Xiatian Zhu Renrui Zhang Yi Wang Yu Qiao Hongsheng Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Retrieving-to-Answer: Zero-Shot Video Fragebeantwortung mit gefrorenen großen Sprachmodellen

Junting Pan Ziyi Lin Yuying Ge Xiatian Zhu Renrui Zhang Yi Wang Yu Qiao Hongsheng Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters