17일 전
Seed-ASR: LLM 기반 음성 인식을 통한 다양한 음성과 맥락 이해
Ye Bai, Jingping Chen, Jitong Chen, Wei Chen, Zhuo Chen, Chuang Ding, Linhao Dong, Qianqian Dong, Yujiao Du, Kepan Gao, Lu Gao, Yi Guo, Minglun Han, Ting Han, Wenchao Hu, Xinying Hu, Yuxiang Hu, Deyu Hua, Lu Huang, Mingkun Huang, Youjia Huang, Jishuo Jin, Fanliu Kong, Zongwei Lan, Tianyu Li, Xiaoyang Li, Zeyang Li, Zehua Lin, Rui Liu, Shouda Liu, Lu Lu, Yizhou Lu, Jingting Ma, Shengtao Ma, Yulin Pei, Chen Shen, Tian Tan, Xiaogang Tian, Ming Tu, Bo Wang, Hao Wang, Yuping Wang, Yuxuan Wang, Hanzhang Xia, Rui Xia, Shuangyi Xie, Hongmin Xu, Meng Yang, Bihong Zhang, Jun Zhang, Wanyi Zhang, Yang Zhang, Yawei Zhang, Yijie Zheng, Ming Zou

초록
현대의 자동 음성 인식(ASR) 모델은 다양한 응용 시나리오에서 특정 맥락 정보를 바탕으로, 다양한 도메인, 언어, 억양 등 다양한 음성 신호를 정확하게 변환할 수 있어야 한다. 기존의 엔드투엔드 모델은 추가적인 언어 모델과 결합하여 우수한 성능을 보이지만, 주로 데이터가 일치하는 환경에서 유의미한 성과를 내며 점차 한계에 다다르고 있다. 본 연구에서는 대규모 언어 모델(LLM) 기반의 음성 인식 모델인 Seed-ASR을 제안한다. Seed-ASR은 음성 조건부 대규모 언어 모델(AcLLM) 아키텍처를 기반으로 하며, 지속적인 음성 표현과 맥락 정보를 함께 입력함으로써 LLM의 강력한 능력을 활용한다. 단계별 대규모 훈련을 통해 LLM의 맥락 인지 능력을 유도함으로써, 다양한 도메인, 억양/방언, 언어를 포함한 종합적인 평가 세트에서 기존 엔드투엔드 모델 대비 상당한 성능 향상을 보였다. 또한, 별도의 언어 모델 없이도 다양한 시나리오에서 특정 요구 사항을 충족하기 위해 추가로 배포 및 적용이 가능하다. 최근 발표된 대규모 ASR 모델들과 비교했을 때, Seed-ASR은 중국어 및 영어 공개 테스트 세트에서 단어(또는 중국어의 경우 문자) 오류율을 10~40% 감소시키며 뛰어난 성능을 입증하였다.