ゼロショットビデオ質問応答 | SOTA | HyperAI超神経

ゼロショット動画質問応答タスクは、大規模言語モデルがこれまで見たことのない特定の動画データに対する質問に答える能力を評価することを目指しています。このタスクは推論のカテゴリーに属し、モデルが動画の内容を分析し、正確な回答を生成することで、マルチモーダル理解と相互作用の応用価値を高めます。

BT-Adapter (zero-shot)

EgoSchema (fullset)

BIMBA-LLaVA-Qwen2-7B

EgoSchema (subset)

FrozenBiLM (with speech)

Video-MME (w/o subs)

Video-RAG (based on LLaVA-Video)

Zero-shot Video Question Answering on LongVideoBench

CinePile: A Long Video Question Answering Dataset and Benchmark