HyperAI초신경

홈 뉴스 연구 논문 튜토리얼 데이터셋 백과사전 SOTA LLM 모델 GPU 랭킹 컨퍼런스

한국어

HyperAI초신경

Speaker Identification On Voxceleb1

평가 지표

Accuracy

Top-1 (%)

평가 결과

이 벤치마크에서 각 모델의 성능 결과

모델 이름	Accuracy	Top-1 (%)	Paper Title	Repository
SSAST-PATCH	64.2	64.2	SSAST: Self-Supervised Audio Spectrogram Transformer
AutoSpeech (N=8,C=128)	87.66	87.66	AutoSpeech: Neural Architecture Search for Speaker Recognition
SSAST-FRAME	80.8	80.8	SSAST: Self-Supervised Audio Spectrogram Transformer
ATST Base (ours)	94.3	94.3	ATST: Audio Representation Learning with Teacher-Student Transformer
M2D ratio=0.6	94.8	94.8	Masked Modeling Duo: Learning Representations by Encouraging Both Networks to Model the Input
M2D/0.6	96.5	96.5	Masked Modeling Duo: Towards a Universal Audio Pre-training Framework
AudioMAE (local)	94.8	94.8	Masked Autoencoders that Listen
MSM-MAE	96.6	96.6	Masked Modeling Duo: Towards a Universal Audio Pre-training Framework
AudioMAE (global)	94.1	94.1	Masked Autoencoders that Listen
M2D/0.7	96.3	96.3	Masked Modeling Duo: Towards a Universal Audio Pre-training Framework
COLA	37.7	37.7	Contrastive Learning of General-Purpose Audio Representations
SSAMBA	70.1	70.1	SSAMBA: Self-Supervised Audio Representation Learning with Mamba State Space Model

0 of 12 row(s) selected.