8일 전

스피커 임베딩 인식 신경망 다이어리제이션: 회의 시나리오에서 겹치는 음성 다이어리제이션을 위한 효율적인 프레임워크

Zhihao Du, Shiliang Zhang, Siqi Zheng, Zhijie Yan
스피커 임베딩 인식 신경망 다이어리제이션: 회의 시나리오에서 겹치는 음성 다이어리제이션을 위한 효율적인 프레임워크
초록

중복 발화 다이어리제이션은 기존에 다중 레이블 분류 문제로 다뤄져 왔다. 본 논문에서는 타겟 발화자들의 가능한 조합을 나타내는 멱집합(power set)을 이용해 다수의 이진 레이블을 하나의 레이블로 인코딩함으로써 이 작업을 단일 레이블 예측 문제로 재정의한다. 이러한 설정은 두 가지 장점을 갖는다. 첫째, 타겟 발화자의 중복 상황이 명시적으로 모델링된다. 둘째, 임계값 설정이 더 이상 필요하지 않다. 이러한 접근을 기반으로, 음성 특징과 발화자 임베딩 간의 유사도를 바탕으로 인코딩된 레이블을 예측하기 위해 음성 인코더, 발화자 인코더, 두 개의 유사도 스코어러, 그리고 후처리 네트워크가 공동 최적화되는 발화자 임베딩 인식 신경 다이어리제이션(SEN D) 프레임워크를 제안한다. 실험 결과, SEND는 안정적인 학습 과정을 보이며, 추가 초기화 없이 고도로 중복된 데이터에서도 학습이 가능하다는 점을 입증하였다. 더욱 중요한 것은, 본 방법이 적은 모델 파라미터 수와 낮은 계산 복잡도로 실제 회의 환경에서 최신 기술 수준의 성능을 달성했다는 점이다.

스피커 임베딩 인식 신경망 다이어리제이션: 회의 시나리오에서 겹치는 음성 다이어리제이션을 위한 효율적인 프레임워크 | 최신 연구 논문 | HyperAI초신경