Réponse zéro-shot à des questions vidéo
La tâche de Zero-Shot Video Question Answering vise à permettre aux grands modèles linguistiques de répondre avec précision à des questions sur le contenu vidéo sans formation spécifique. Cette tâche relève du domaine de la vision par ordinateur et renforce les capacités de compréhension multimodale des modèles, leur permettant d'analyser et de répondre immédiatement à des données vidéo inédites. Elle présente une valeur d'application significative, notamment dans les systèmes de dialogue intelligent, la recherche de contenu vidéo et les scénarios d'answer automatique aux questions.
MSRVTT-QA
MovieChat
ActivityNet-QA
MovieChat
MSVD-QA
BT-Adapter (zero-shot)
EgoSchema (fullset)
BIMBA-LLaVA-Qwen2-7B
NExT-QA
Tarsier (34B)
TGIF-QA
IG-VLM
EgoSchema (subset)
Tarsier (34B)
IntentQA
IG-VLM
Video-MME
Gemini 1.5 Pro
TVQA
FrozenBiLM (with speech)
Video-MME (w/o subs)
Video-RAG (based on LLaVA-Video)
NExT-GQA
STAR Benchmark
VideoChat2
Zero-shot Video Question Answering on LongVideoBench
Gemini 1.5 Pro
MVBench
TS-LLaVA-34B
CinePile: A Long Video Question Answering Dataset and Benchmark