Zeroshot Video Question Answer
コンピュータビジョンは、機械が画像や動画を解釈し理解する技術です。この技術の目的は、人間の視覚システムを模倣することで複雑なシーンの自動認識と分析を達成することです。コンピュータビジョンは医療画像診断、自動運転、セキュリティ監視などの分野で広く応用されており、効率性和正確性を大幅に向上させ、知能社会の発展に貢献しています。
ActivityNet-QA
IG-VLM
CinePile: A Long Video Question Answering Dataset and Benchmark
EgoSchema (fullset)
BIMBA-LLaVA-Qwen2-7B
EgoSchema (subset)
Tarsier (34B)
IntentQA
IG-VLM
MSRVTT-QA
Flash-VStream
MSVD-QA
Video-LLaVA-7B
MVBench
TS-LLaVA-34B
NExT-GQA
NExT-QA
Tarsier (34B)
STAR Benchmark
VideoChat2
TGIF-QA
PLLaVA
TVQA
FrozenBiLM (with speech)
Video-MME
Gemini 1.5 Pro
Video-MME (w/o subs)
Video-RAG (based on LLaVA-Video)
Zero-shot Video Question Answering on LongVideoBench
Gemini 1.5 Pro