HyperAI초신경

Video Question Answering On Msrvtt Qa

평가 지표

Accuracy

평가 결과

이 벤치마크에서 각 모델의 성능 결과

		Paper Title
Mirasol3B	50.42	Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities
VAST	50.1	VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset
VALOR	49.2	VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset
COSA	49.2	COSA: Concatenated Sample Pretrained Vision-Language Foundation Model
MA-LMM	48.5	MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding
mPLUG-2	48.0	mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video
FrozenBiLM	47.0	Zero-Shot Video Question Answering via Frozen Bidirectional Language Models
HBI	46.2	Video-Text as Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation Learning
EMCL-Net	45.8	Expectation-Maximization Contrastive Learning for Compact Video-and-Language Representations
VindLU	44.6	VindLU: A Recipe for Effective Video-and-Language Pretraining
VIOLETv2	44.5	An Empirical Study of End-to-End Video-Language Transformers with Masked Visual Modeling
Singularity-temporal	43.9	Revealing Single Frame Bias for Video-and-Language Learning
Singularity	43.5	Revealing Single Frame Bias for Video-and-Language Learning
FrozenBiLM (0-shot)	16.7	Zero-Shot Video Question Answering via Frozen Bidirectional Language Models

0 of 14 row(s) selected.

Video Question Answering On Msrvtt Qa | SOTA | HyperAI초신경