제로샷 비디오 질문 답변
Zero-Shot 비디오 질문 응답 작업은 특정 훈련 없이 대형 언어 모델이 비디오 콘텐츠에 대한 질문을 정확하게 답변할 수 있도록 하는 것을 목표로 합니다. 이 작업은 컴퓨터 비전의 영역에 속하며, 모델의 다중 모드 이해 능력을 향상시켜 미리 본 적 없는 비디오 데이터를 즉시 분석하고 응답할 수 있게 합니다. 이는 특히 지능형 대화 시스템, 비디오 콘텐츠 검색, 자동 질문 응답 시나리오 등에서 중요한 응용 가치를 가지고 있습니다.
MSRVTT-QA
MovieChat
ActivityNet-QA
MovieChat
MSVD-QA
BT-Adapter (zero-shot)
EgoSchema (fullset)
BIMBA-LLaVA-Qwen2-7B
NExT-QA
Tarsier (34B)
TGIF-QA
IG-VLM
EgoSchema (subset)
Tarsier (34B)
IntentQA
IG-VLM
Video-MME
Gemini 1.5 Pro
TVQA
FrozenBiLM (with speech)
Video-MME (w/o subs)
Video-RAG (based on LLaVA-Video)
NExT-GQA
STAR Benchmark
VideoChat2
Zero-shot Video Question Answering on LongVideoBench
Gemini 1.5 Pro
MVBench
TS-LLaVA-34B
CinePile: A Long Video Question Answering Dataset and Benchmark