Command Palette
Search for a command to run...
Réponse zéro-shot à des questions vidéo
La tâche de Zero-Shot Video Question Answering vise à permettre aux grands modèles linguistiques de répondre avec précision à des questions sur le contenu vidéo sans formation spécifique. Cette tâche relève du domaine de la vision par ordinateur et renforce les capacités de compréhension multimodale des modèles, leur permettant d'analyser et de répondre immédiatement à des données vidéo inédites. Elle présente une valeur d'application significative, notamment dans les systèmes de dialogue intelligent, la recherche de contenu vidéo et les scénarios d'answer automatique aux questions.
MSRVTT-QA
MovieChat
ActivityNet-QA
MovieChat
MSVD-QA
BT-Adapter (zero-shot)
EgoSchema (fullset)
BIMBA-LLaVA-Qwen2-7B
NExT-QA
Tarsier (34B)
TGIF-QA
IG-VLM
IntentQA
IG-VLM
EgoSchema (subset)
Tarsier (34B)
Video-MME
Gemini 1.5 Pro
TVQA
FrozenBiLM (with speech)
Video-MME (w/o subs)
Video-RAG (based on LLaVA-Video)
NExT-GQA
Zero-shot Video Question Answering on LongVideoBench
Gemini 1.5 Pro
STAR Benchmark
VideoChat2
MVBench
TS-LLaVA-34B
CinePile: A Long Video Question Answering Dataset and Benchmark