Command Palette
Search for a command to run...
에코X: 음성-음성 LLM을 위한 에코 훈련을 통한 음향-의미 간 격차 완화 방향
에코X: 음성-음성 LLM을 위한 에코 훈련을 통한 음향-의미 간 격차 완화 방향
Yuhao Zhang Yuhao Du Zhanchen Dai Xiangnan Ma Kaiqi Kou Benyou Wang Haizhou Li
초록
음성-음성 대규모 언어 모델(Speech-to-speech Large Language Models, SLLMs)이 점점 더 주목받고 있다. 텍스트 기반 대규모 언어 모델(LLMs)에서 유도된 SLLMs는 종종 지식 및 추론 능력 측면에서 성능 저하를 보인다. 본 연구에서는 이러한 한계가 현재 SLLMs의 학습 프레임워크가 특징 표현 공간 내에서 음성-의미 간의 격차를 효과적으로 메우지 못하기 때문이라고 가정한다. 이 문제를 해결하기 위해 우리는 의미 표현을 활용하고, 동적으로 음성 학습 타겟을 생성하는 EchoX를 제안한다. 이 접근법은 음성 학습과 의미 학습을 통합하여, EchoX가 음성 기반 언어 모델로서 강력한 추론 능력을 유지할 수 있도록 한다. 실험 결과, 약 6,000시간의 학습 데이터를 기반으로 한 EchoX는 다양한 지식 기반 질의응답 벤치마크에서 최첨단 성능을 달성함을 입증하였다. 프로젝트는 다음 링크에서 확인할 수 있다: https://github.com/FreedomIntelligence/EchoX.