
초록
최근에 엔드투엔드 신경망 다이어라이제이션(EEND)이 도입되어 발화자 겹침 상황에서 유망한 성과를 달성하고 있다. EEND에서는 발화자 다이어라이제이션을 다중 레이블 예측 문제로 설정하며, 발화자 활동을 독립적으로 추정하기 때문에 그 간의 종속성은 충분히 고려되지 않는다. 이러한 단점을 극복하기 위해 본 연구에서는 파워 세트 인코딩(power set encoding)을 도입하여 발화자 다이어라이제이션을 단일 레이블 분류 문제로 재정의하고, 겹침과 종속성을 명시적으로 모델링할 수 있는 겹침 인지형 엔드투엔드 다이어라이제이션(EEND-OLA) 모델을 제안한다. 두 단계 하이브리드 시스템의 성공 사례에 영감을 받아, EEND-OLA의 다이어라이제이션 결과를 반복적으로 개선하기 위해 발화자 겹침 인지형 후처리(SOAP) 모델을 도입한 새로운 이중단계 겹침 인지형 다이어라이제이션 프레임워크(TOLD)를 제안한다. 실험 결과, 기존 EEND 대비 제안하는 EEND-OLA는 다이어라이제이션 오류율(DER) 기준으로 14.39%의 상대적 개선을 달성하였으며, SOAP을 활용할 경우 추가로 19.33%의 상대적 개선이 이루어졌다. 결과적으로 본 연구의 TOLD 방법은 CALLHOME 데이터셋에서 DER 10.14%를 달성하였으며, 이는 현재까지 알려진 최고 성능의 결과로, 본 연구의 최신 기준에 해당한다.