Zeroshot Video Question Answer
الرؤية الحاسوبية هي تقنية تمكن الآلات من تفسير وفهم الصور والفيديوهات. هدفها هو تحقيق التعرف والتحليل التلقائي للمشاهد المعقدة من خلال محاكاة النظام البصري للإنسان. تُستخدم هذه التقنية على نطاق واسع في مجالات مثل تشخيص الصور الطبية، القيادة الذاتية، ومراقبة الأمن، مما يعزز الكفاءة والدقة بشكل كبير ويدفع نحو تطوير المجتمع الذكي.
ActivityNet-QA
IG-VLM
CinePile: A Long Video Question Answering Dataset and Benchmark
EgoSchema (fullset)
BIMBA-LLaVA-Qwen2-7B
EgoSchema (subset)
Tarsier (34B)
IntentQA
IG-VLM
MSRVTT-QA
Flash-VStream
MSVD-QA
Video-LLaVA-7B
MVBench
TS-LLaVA-34B
NExT-GQA
NExT-QA
Tarsier (34B)
STAR Benchmark
VideoChat2
TGIF-QA
PLLaVA
TVQA
FrozenBiLM (with speech)
Video-MME
Gemini 1.5 Pro
Video-MME (w/o subs)
Video-RAG (based on LLaVA-Video)
Zero-shot Video Question Answering on LongVideoBench
Gemini 1.5 Pro