Multi Modal Classification On Vgg Sound

Top-1 Accuracy

평가 결과

이 벤치마크에서 각 모델의 성능 결과

		Paper Title
MMT	66.2	Multiscale Multimodal Transformer for Multimodal Action Recognition
CAV-MAE (Audio-Visual)	65.9	Contrastive Audio-Visual Masked Autoencoder
UAVM	65.8	UAVM: Towards Unifying Audio and Visual Models
AVT	63.9	AVT: Audio-Video Transformer for Multimodal Action Recognition

0 of 4 row(s) selected.