Command Palette
Search for a command to run...
ゼロショットビデオ質問応答
ゼロショット動画質問応答タスクは、大規模言語モデルがこれまで見たことのない特定の動画データに対する質問に答える能力を評価することを目指しています。このタスクは推論のカテゴリーに属し、モデルが動画の内容を分析し、正確な回答を生成することで、マルチモーダル理解と相互作用の応用価値を高めます。
MSRVTT-QA
MovieChat
ActivityNet-QA
MovieChat
MSVD-QA
BT-Adapter (zero-shot)
EgoSchema (fullset)
BIMBA-LLaVA-Qwen2-7B
NExT-QA
Tarsier (34B)
TGIF-QA
IG-VLM
EgoSchema (subset)
Tarsier (34B)
IntentQA
IG-VLM
Video-MME
Gemini 1.5 Pro
TVQA
FrozenBiLM (with speech)
Video-MME (w/o subs)
Video-RAG (based on LLaVA-Video)
NExT-GQA
STAR Benchmark
VideoChat2
Zero-shot Video Question Answering on LongVideoBench
Gemini 1.5 Pro
MVBench
TS-LLaVA-34B
CinePile: A Long Video Question Answering Dataset and Benchmark