Zeroshot Video Question Answer
Computer Vision ist eine Technologie, die Maschinen ermöglicht, Bilder und Videos zu interpretieren und zu verstehen. Ihr Ziel ist es, die automatische Erkennung und Analyse komplexer Szenen durch die Simulation des menschlichen Sehsystems zu erreichen. Diese Technologie wird in Bereichen wie der medizinischen Bildgebung, autonomen Fahrzeugen und Sicherheitsüberwachung eingesetzt, wodurch Effizienz und Genauigkeit erheblich gesteigert werden und die Entwicklung einer intelligenteren Gesellschaft gefördert wird.
ActivityNet-QA
IG-VLM
CinePile: A Long Video Question Answering Dataset and Benchmark
EgoSchema (fullset)
BIMBA-LLaVA-Qwen2-7B
EgoSchema (subset)
Tarsier (34B)
IntentQA
IG-VLM
MSRVTT-QA
Flash-VStream
MSVD-QA
Video-LLaVA-7B
MVBench
TS-LLaVA-34B
NExT-GQA
NExT-QA
Tarsier (34B)
STAR Benchmark
VideoChat2
TGIF-QA
PLLaVA
TVQA
FrozenBiLM (with speech)
Video-MME
Gemini 1.5 Pro
Video-MME (w/o subs)
Video-RAG (based on LLaVA-Video)
Zero-shot Video Question Answering on LongVideoBench
Gemini 1.5 Pro