
초록
최근에, 파라미터 공유 재귀 신경망의 여러 인스턴스를 사용하여 발화자를 모델링하는 완전 지도형 발화자 다이어라이제이션 방법(UIS-RNN)이 제안되었다. 본 논문에서는 학습 효율성과 전체 다이어라이제이션 성능을 크게 향상시키는 모델에 대한 질적 개선을 제안한다. 특히, 새로운 손실 함수인 '샘플 평균 손실(Sample Mean Loss)'을 도입하였으며, 발화자 전환 행동을 보다 효과적으로 모델링하기 위해 대화에 새로운 발화자가 참여할 확률을 계산하는 해석적 표현을 제안한다. 또한, 본 모델이 고정 길이의 음성 세그먼트를 사용하여 훈련될 수 있음을 입증함으로써, 추론 과정에서 발화자 전환 정보가 필요 없도록 했다. x-벡터를 입력 특징으로 사용하여 DIHARD II 챌린지에서 사용된 다중 도메인 데이터셋에서 제안하는 방법을 평가한 결과, 본 연구의 온라인 방법은 원래 UIS-RNN보다 성능이 향상되었으며, PLDA 점수 기반의 오프라인 응집형 클러스터링 기준과 유사한 성능을 달성하였다.