الأسئلة والإجابات على الفيديو بدون تدريب مسبق
مهمتك تبدأ الآن: تهدف مهمة الإجابة على الأسئلة من الفيديو بدون تدريب مسبق (Zero-Shot Video Question Answering) إلى تمكين النماذج اللغوية الكبيرة من الإجابة بدقة على أسئلة حول محتوى الفيديو دون الحاجة إلى تدريب خاص. تندرج هذه المهمة تحت مجال الرؤية الحاسوبية وتعزز قدرات الفهم متعدد الوسائط للنموذج، مما يسمح بتحليل فوري واستجابة لمحتوى الفيديو غير المعروف مسبقًا. ولها قيمة تطبيقية كبيرة، خاصة في أنظمة الحوار الذكي، واسترجاع محتوى الفيديو، وسيناريوهات الإجابة التلقائية على الأسئلة.
MSRVTT-QA
MovieChat
ActivityNet-QA
MovieChat
MSVD-QA
BT-Adapter (zero-shot)
EgoSchema (fullset)
BIMBA-LLaVA-Qwen2-7B
NExT-QA
Tarsier (34B)
TGIF-QA
IG-VLM
EgoSchema (subset)
Tarsier (34B)
IntentQA
IG-VLM
Video-MME
Gemini 1.5 Pro
TVQA
FrozenBiLM (with speech)
Video-MME (w/o subs)
Video-RAG (based on LLaVA-Video)
NExT-GQA
STAR Benchmark
VideoChat2
Zero-shot Video Question Answering on LongVideoBench
Gemini 1.5 Pro
MVBench
TS-LLaVA-34B
CinePile: A Long Video Question Answering Dataset and Benchmark