비디오 질문 답변
비디오 질문 응답(VQA)은 컴퓨터 비전과 자연어 처리 기술을 통합하여, 사용자가 제시하는 비디오 콘텐츠 관련 질문을 정확히 답변하는 작업입니다. 이는 비디오를 분석하여 시각적 정보와 언어적 정보를 깊이 융합하고 이해하는 것을 목표로 하여, 정밀하고 효율적인 정보 검색 및 상호작용 경험을 제공합니다. VQA는 지능형 비디오 조수, 교육 플랫폼, 엔터테인먼트 시스템 등 다양한 분야에서 중요한 응용 가치를 가지고 있습니다.
NExT-QA
LLaMA-VQA (33B)
ActivityNet-QA
FrozenBiLM
MVBench
ST-LLM
TVBench
Tarsier-34B
STAR Benchmark
VLAP (4 frames)
MSRVTT-QA
FrozenBiLM
AGQA 2.0 balanced
GF (sup) - Faster RCNN
How2QA
Text + Text (no Multimodal Pretext Training)
iVQA
FrozenBiLM
MSRVTT-MC
Singularity-temporal
IntentQA
VideoChat2_mistral
Perception Test
InternVideo2 (8B)
SUTD-TrafficQA
TVQA
LLaMA-VQA
WildQA
LSMDC-MC
VIOLETv2
NExT-QA (Efficient)
ViLA (3B, 4 frames)
RoadTextVQA
GIT
DramaQA
Howto100M-QA
TimeSformer
LSMDC-FiB
Clover
MSR-VTT
MSR-VTT-MC
ATP (1<-16)
MSVD-QA
TGIF-QA
VideoQA
Just Ask (fine-tune)
VLEP