Zero Shot Video Question Answer On Tvqa

Métriques

Accuracy

Résultats

Résultats de performance de divers modèles sur ce benchmark

		Paper Title
FrozenBiLM (with speech)	59.7	Zero-Shot Video Question Answering via Frozen Bidirectional Language Models
IG-VLM (no speech, GPT-4V)	57.8	An Image Grid Can Be Worth a Video: Zero-shot Video Question Answering Using a VLM
MiniGPT4-video-7B	54.21	MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens
VideoChat_HD_mistral (no speech)	50.6	MVBench: A Comprehensive Multi-modal Video Understanding Benchmark
VideoChat_mistral (no speech)	46.4	MVBench: A Comprehensive Multi-modal Video Understanding Benchmark
VideoChat2 (no speech)	40.6	MVBench: A Comprehensive Multi-modal Video Understanding Benchmark
SEVILA (no speech)	38.2	Self-Chained Image-Language Model for Video Localization and Question Answering
InternVideo (no speech)	35.9	InternVideo: General Video Foundation Models via Generative and Discriminative Learning
FrozenBILM (no speech)	29.7	Zero-Shot Video Question Answering via Frozen Bidirectional Language Models

0 of 9 row(s) selected.

Zero Shot Video Question Answer On Tvqa | SOTA | HyperAI