8일 전

TOLD: 말하기자 분리의 새로운 이단계 겹침 인지 프레임워크

Jiaming Wang, Zhihao Du, Shiliang Zhang
TOLD: 말하기자 분리의 새로운 이단계 겹침 인지 프레임워크
초록

최근에 엔드투엔드 신경망 다이어라이제이션(EEND)이 도입되어 발화자 겹침 상황에서 유망한 성과를 달성하고 있다. EEND에서는 발화자 다이어라이제이션을 다중 레이블 예측 문제로 설정하며, 발화자 활동을 독립적으로 추정하기 때문에 그 간의 종속성은 충분히 고려되지 않는다. 이러한 단점을 극복하기 위해 본 연구에서는 파워 세트 인코딩(power set encoding)을 도입하여 발화자 다이어라이제이션을 단일 레이블 분류 문제로 재정의하고, 겹침과 종속성을 명시적으로 모델링할 수 있는 겹침 인지형 엔드투엔드 다이어라이제이션(EEND-OLA) 모델을 제안한다. 두 단계 하이브리드 시스템의 성공 사례에 영감을 받아, EEND-OLA의 다이어라이제이션 결과를 반복적으로 개선하기 위해 발화자 겹침 인지형 후처리(SOAP) 모델을 도입한 새로운 이중단계 겹침 인지형 다이어라이제이션 프레임워크(TOLD)를 제안한다. 실험 결과, 기존 EEND 대비 제안하는 EEND-OLA는 다이어라이제이션 오류율(DER) 기준으로 14.39%의 상대적 개선을 달성하였으며, SOAP을 활용할 경우 추가로 19.33%의 상대적 개선이 이루어졌다. 결과적으로 본 연구의 TOLD 방법은 CALLHOME 데이터셋에서 DER 10.14%를 달성하였으며, 이는 현재까지 알려진 최고 성능의 결과로, 본 연구의 최신 기준에 해당한다.

TOLD: 말하기자 분리의 새로운 이단계 겹침 인지 프레임워크 | 최신 연구 논문 | HyperAI초신경