Zero-Shot-Videosfragebeantwortung
Die Aufgabe des Zero-Shot Video Frage-Antwortens zielt darauf ab, große Sprachmodelle zu befähigen, Fragen zu Videoinhalten korrekt zu beantworten, ohne dafür spezifisch trainiert worden zu sein. Diese Aufgabe gehört zum Bereich der Computer Vision und verbessert die multimodale Verständnisfähigkeiten des Modells, was es ermöglicht, unbekannte Videodaten sofort zu analysieren und darauf zu antworten. Sie hat erheblichen Anwendungswert, insbesondere in intelligenten Dialogsystemen, Videoinhaltsretrieval und automatischen Frage-Antwort-Szenarien.
MSRVTT-QA
MovieChat
ActivityNet-QA
MovieChat
MSVD-QA
BT-Adapter (zero-shot)
EgoSchema (fullset)
BIMBA-LLaVA-Qwen2-7B
NExT-QA
Tarsier (34B)
TGIF-QA
IG-VLM
EgoSchema (subset)
Tarsier (34B)
IntentQA
IG-VLM
Video-MME
Gemini 1.5 Pro
TVQA
FrozenBiLM (with speech)
Video-MME (w/o subs)
Video-RAG (based on LLaVA-Video)
NExT-GQA
STAR Benchmark
VideoChat2
Zero-shot Video Question Answering on LongVideoBench
Gemini 1.5 Pro
MVBench
TS-LLaVA-34B
CinePile: A Long Video Question Answering Dataset and Benchmark