2달 전

SpeechNAS: 대규모 화자 인증에서 지연 시간과 정확도 간의 더 나은 균형을 위해

Wentao Zhu; Tianlong Kong; Shun Lu; Jixiang Li; Dawei Zhang; Feng Deng; Xiaorui Wang; Sen Yang; Ji Liu
SpeechNAS: 대규모 화자 인증에서 지연 시간과 정확도 간의 더 나은 균형을 위해
초록

최근, x-벡터는 시간 지연 신경망(TDNN)과 통계 풀링을 사용하여 가변 길이 발화에서 화자 특성을 추출하는 데 성공적이며 인기 있는 접근 방식으로 자리 잡았습니다. x-벡터의 개선은 활발한 연구 분야로, 이를 기반으로 확장된 TDNN(E-TDNN), 인수 분해된 TDNN(F-TDNN), 그리고 밀집 연결된 TDNN(D-TDNN) 등 다양한 신경망이 세심하게 설계되었습니다. 본 연구에서는 신경망 구조 탐색(NAS)을 활용하여 TDNN 기반 검색 공간에서 최적의 구조를 식별하려고 합니다. 이를 SpeechNAS라고 명명하였습니다. 최근 화자 인식 분야의 발전, 예를 들어 고차 통계 풀링, 다중 분기 메커니즘, D-TDNN 및 최소 초구면 에너지(MHE)와 함께 각도 추가 마진 소프트맥스(AAM) 손실 등을 활용하여, SpeechNAS는 대규모 텍스트 독립형 화자 인식 데이터셋 VoxCeleb1에서 다양한 매개변수와 GFLOPs를 가진 SpeechNAS-1부터 SpeechNAS-5까지 총 5개의 네트워크 구조를 자동으로 발견하였습니다. 우리가 도출한 최상의 신경망은 VoxCeleb1 표준 테스트 세트에서 1.02%의 동일 오류율(EER)을 달성하였으며, 이는 이전 TDNN 기반 최신 접근 방식보다 크게 우수한 결과입니다. 코드와 학습된 가중치는 https://github.com/wentaozhu/speechnas.git 에서 확인할 수 있습니다.