6일 전

OpenS2S: 오픈소스 엔드투엔드 공감형 대형 음성 언어 모델의 발전

Chen Wang, Tianyu Peng, Wen Yang, Yinan Bai, Guangfu Wang, Jun Lin, Lanpeng Jia, Lingxiang Wu, Jinqiao Wang, Chengqing Zong, Jiajun Zhang

논문 세부 정보 보기

초록

공감적 상호작용은 말소리에 부언어적 힌트가 포함되어 있어 이를 이해하고 감정적이고 표현적인 응답을 생성해야 하는 인간-기계 통신의 핵심 요소입니다. 그러나 가장 강력한 공감형 LSLM(Large-Scale Language Model)들은 점점 폐쇄적으로 운영되면서 연구자들에게는 구조, 데이터 및 개발 과정에 대한 중요한 세부 사항이 불투명해지고 있습니다. 이러한 LSLM들과 공감적 행동에 대한 투명한 연구의 중요성을 고려하여, 우리는 공감적인 말소리 상호작용을 가능하게 하기 위해 완전히 오픈 소스이며 투명하고 단일 과정으로 설계된 OpenS2S 모델을 제시합니다. 우리의 공감적 음성인식 모델 BLSP-Emo를 기반으로 OpenS2S는 저 지연 시간의 음성 생성을 달성하기 위해 스트리밍 교차 디코딩 아키텍처를 사용합니다. 단일 과정 학습을 용이하게 하기 위해 OpenS2S는 다양한 고품질의 공감적 음성 대화를 저렴한 비용으로 합성하는 자동 데이터 구축 파이프라인을 통합합니다. 대규모 언어 모델을 활용하여 공감적인 콘텐츠를 생성하고, 제어 가능한 텍스트-음성 변환 시스템을 통해 화자와 감정의 다양성을 도입함으로써, 우리는 최소한의 인적 감독 하에서 풍부한 부언어적 다양성을 갖춘 확장 가능한 학습 코퍼스를 구성합니다. 우리는 데이터셋, 모델 가중치, 사전 학습 및 미세 조정 코드를 포함하여 완전히 오픈 소스로 OpenS2S 모델을 제공하여 더 넓은 연구 커뮤니티를 지원하고 공감적인 음성 시스템 혁신을 가속화하기 위함입니다. 프로젝트 웹페이지는 이 https URL에서 접근할 수 있습니다.