Multi Modal Classification On Vgg Sound
평가 지표
Top-1 Accuracy
평가 결과
이 벤치마크에서 각 모델의 성능 결과
모델 이름 | Top-1 Accuracy | Paper Title | Repository |
---|---|---|---|
UAVM | 65.8 | UAVM: Towards Unifying Audio and Visual Models | |
MMT | 66.2 | Multiscale Multimodal Transformer for Multimodal Action Recognition | - |
CAV-MAE (Audio-Visual) | 65.9 | Contrastive Audio-Visual Masked Autoencoder | |
AVT | 63.9 | AVT: Audio-Video Transformer for Multimodal Action Recognition | - |
0 of 4 row(s) selected.