ゼロショットビデオ質問応答
ゼロショットビデオ質問応答タスクは、特定のトレーニングなしで大規模言語モデルがビデオコンテンツに関する質問に正確に答えることを可能にするものです。このタスクはコンピュータビジョンの領域に属し、モデルのクロスモーダル理解能力を向上させ、未見のビデオデータに対する即時分析と応答を実現します。特に、知能対話システム、ビデオコンテンツ検索、自動質問応答などの場面で大きな応用価値があります。
MSRVTT-QA
MovieChat
ActivityNet-QA
MovieChat
MSVD-QA
BT-Adapter (zero-shot)
EgoSchema (fullset)
BIMBA-LLaVA-Qwen2-7B
NExT-QA
Tarsier (34B)
TGIF-QA
IG-VLM
EgoSchema (subset)
Tarsier (34B)
IntentQA
IG-VLM
Video-MME
Gemini 1.5 Pro
TVQA
FrozenBiLM (with speech)
Video-MME (w/o subs)
Video-RAG (based on LLaVA-Video)
NExT-GQA
STAR Benchmark
VideoChat2
Zero-shot Video Question Answering on LongVideoBench
Gemini 1.5 Pro
MVBench
TS-LLaVA-34B
CinePile: A Long Video Question Answering Dataset and Benchmark