Zeroshot Video Question Answer
La vision par ordinateur est une technologie qui permet aux machines d'interpréter et de comprendre les images et les vidéos. Son objectif est d'atteindre la reconnaissance et l'analyse automatiques de scènes complexes en simulant le système visuel humain. Cette technologie est largement utilisée dans des domaines tels que le diagnostic d'images médicales, la conduite autonome et la surveillance de sécurité, améliorant considérablement l'efficacité et la précision, et favorisant le développement d'une société intelligente.
ActivityNet-QA
IG-VLM
CinePile: A Long Video Question Answering Dataset and Benchmark
EgoSchema (fullset)
BIMBA-LLaVA-Qwen2-7B
EgoSchema (subset)
Tarsier (34B)
IntentQA
IG-VLM
MSRVTT-QA
Flash-VStream
MSVD-QA
Video-LLaVA-7B
MVBench
TS-LLaVA-34B
NExT-GQA
NExT-QA
Tarsier (34B)
STAR Benchmark
VideoChat2
TGIF-QA
PLLaVA
TVQA
FrozenBiLM (with speech)
Video-MME
Gemini 1.5 Pro
Video-MME (w/o subs)
Video-RAG (based on LLaVA-Video)
Zero-shot Video Question Answering on LongVideoBench
Gemini 1.5 Pro