Video Question Answering On Lsmdc Mc

Accuracy

평가 결과

이 벤치마크에서 각 모델의 성능 결과

		Paper Title
VIOLETv2	84.4	An Empirical Study of End-to-End Video-Language Transformers with Masked Visual Modeling
Clover	83.7	Clover: Towards A Unified Video-Language Alignment and Fusion Model

0 of 2 row(s) selected.