HyperAIHyperAI

Command Palette

Search for a command to run...

에코X: 음성-음성 LLM을 위한 에코 훈련을 통한 음향-의미 간 격차 완화 방향

Yuhao Zhang Yuhao Du Zhanchen Dai Xiangnan Ma Kaiqi Kou Benyou Wang Haizhou Li

초록

음성-음성 대규모 언어 모델(Speech-to-speech Large Language Models, SLLMs)이 점점 더 주목받고 있다. 텍스트 기반 대규모 언어 모델(LLMs)에서 유도된 SLLMs는 종종 지식 및 추론 능력 측면에서 성능 저하를 보인다. 본 연구에서는 이러한 한계가 현재 SLLMs의 학습 프레임워크가 특징 표현 공간 내에서 음성-의미 간의 격차를 효과적으로 메우지 못하기 때문이라고 가정한다. 이 문제를 해결하기 위해 우리는 의미 표현을 활용하고, 동적으로 음성 학습 타겟을 생성하는 EchoX를 제안한다. 이 접근법은 음성 학습과 의미 학습을 통합하여, EchoX가 음성 기반 언어 모델로서 강력한 추론 능력을 유지할 수 있도록 한다. 실험 결과, 약 6,000시간의 학습 데이터를 기반으로 한 EchoX는 다양한 지식 기반 질의응답 벤치마크에서 최첨단 성능을 달성함을 입증하였다. 프로젝트는 다음 링크에서 확인할 수 있다: https://github.com/FreedomIntelligence/EchoX.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
에코X: 음성-음성 LLM을 위한 에코 훈련을 통한 음향-의미 간 격차 완화 방향 | 문서 | HyperAI초신경