Zeroshot Video Question Answer
컴퓨터 비전은 기계가 이미지와 동영상을 해석하고 이해할 수 있도록 하는 기술입니다. 이 기술의 목표는 인간의 시각 시스템을 모방하여 복잡한 장면을 자동으로 인식하고 분석하는 것입니다. 컴퓨터 비전은 의료 영상 진단, 자율 주행, 보안 감시 등 다양한 분야에서 광범위하게 적용되며, 효율성과 정확성을 크게 향상시키고 지능형 사회의 발전을 촉진합니다.
ActivityNet-QA
IG-VLM
CinePile: A Long Video Question Answering Dataset and Benchmark
EgoSchema (fullset)
BIMBA-LLaVA-Qwen2-7B
EgoSchema (subset)
Tarsier (34B)
IntentQA
IG-VLM
MSRVTT-QA
Flash-VStream
MSVD-QA
Video-LLaVA-7B
MVBench
TS-LLaVA-34B
NExT-GQA
NExT-QA
Tarsier (34B)
STAR Benchmark
VideoChat2
TGIF-QA
PLLaVA
TVQA
FrozenBiLM (with speech)
Video-MME
Gemini 1.5 Pro
Video-MME (w/o subs)
Video-RAG (based on LLaVA-Video)
Zero-shot Video Question Answering on LongVideoBench
Gemini 1.5 Pro