الأسئلة والإجابات المرئية
السؤال والإجابة على الفيديو (VQA) هي مهمة تدمج تقنيات الرؤية الحاسوبية ومعالجة اللغة الطبيعية، وتهدف إلى الإجابة بدقة على الأسئلة التي يطرحها المستخدمون المتعلقة بمحتوى الفيديو من خلال تحليل الفيديو. الهدف منها هو تحقيق دمج عميق وفهم للمعلومات البصرية واللغوية في الفيديوهات، مما يوفر استرجاع معلومات دقيق وكفاءة تفاعلية. للسؤال والإجابة على الفيديو قيمة تطبيقية كبيرة في مجالات مثل المساعدين الفيديو الذكية، المنصات التعليمية، وأنظمة الترفيه.
NExT-QA
LLaMA-VQA (33B)
ActivityNet-QA
FrozenBiLM
MVBench
ST-LLM
TVBench
Tarsier-34B
STAR Benchmark
VLAP (4 frames)
MSRVTT-QA
FrozenBiLM
AGQA 2.0 balanced
GF (sup) - Faster RCNN
How2QA
Text + Text (no Multimodal Pretext Training)
iVQA
FrozenBiLM
MSRVTT-MC
Singularity-temporal
IntentQA
VideoChat2_mistral
Perception Test
InternVideo2 (8B)
SUTD-TrafficQA
TVQA
LLaMA-VQA
WildQA
LSMDC-MC
VIOLETv2
NExT-QA (Efficient)
ViLA (3B, 4 frames)
RoadTextVQA
GIT
DramaQA
Howto100M-QA
TimeSformer
LSMDC-FiB
Clover
MSR-VTT
MSR-VTT-MC
ATP (1<-16)
MSVD-QA
TGIF-QA
VideoQA
Just Ask (fine-tune)
VLEP