Discord에서 논의하기

8달 전

다중모달 표현

Yuhao Zhang Yuhao Du Zhanchen Dai Xiangnan Ma Kaiqi Kou Benyou Wang Haizhou Li

초록

음성-음성 대규모 언어 모델(Speech-to-speech Large Language Models, SLLMs)이 점점 더 주목받고 있다. 텍스트 기반 대규모 언어 모델(LLMs)에서 유도된 SLLMs는 종종 지식 및 추론 능력 측면에서 성능 저하를 보인다. 본 연구에서는 이러한 한계가 현재 SLLMs의 학습 프레임워크가 특징 표현 공간 내에서 음성-의미 간의 격차를 효과적으로 메우지 못하기 때문이라고 가정한다. 이 문제를 해결하기 위해 우리는 의미 표현을 활용하고, 동적으로 음성 학습 타겟을 생성하는 EchoX를 제안한다. 이 접근법은 음성 학습과 의미 학습을 통합하여, EchoX가 음성 기반 언어 모델로서 강력한 추론 능력을 유지할 수 있도록 한다. 실험 결과, 약 6,000시간의 학습 데이터를 기반으로 한 EchoX는 다양한 지식 기반 질의응답 벤치마크에서 최첨단 성능을 달성함을 입증하였다. 프로젝트는 다음 링크에서 확인할 수 있다: https://github.com/FreedomIntelligence/EchoX.

소스 PDF 코드 보기

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Discord에서 논의하기

8달 전

다중모달 표현

Yuhao Zhang Yuhao Du Zhanchen Dai Xiangnan Ma Kaiqi Kou Benyou Wang Haizhou Li

초록

음성-음성 대규모 언어 모델(Speech-to-speech Large Language Models, SLLMs)이 점점 더 주목받고 있다. 텍스트 기반 대규모 언어 모델(LLMs)에서 유도된 SLLMs는 종종 지식 및 추론 능력 측면에서 성능 저하를 보인다. 본 연구에서는 이러한 한계가 현재 SLLMs의 학습 프레임워크가 특징 표현 공간 내에서 음성-의미 간의 격차를 효과적으로 메우지 못하기 때문이라고 가정한다. 이 문제를 해결하기 위해 우리는 의미 표현을 활용하고, 동적으로 음성 학습 타겟을 생성하는 EchoX를 제안한다. 이 접근법은 음성 학습과 의미 학습을 통합하여, EchoX가 음성 기반 언어 모델로서 강력한 추론 능력을 유지할 수 있도록 한다. 실험 결과, 약 6,000시간의 학습 데이터를 기반으로 한 EchoX는 다양한 지식 기반 질의응답 벤치마크에서 최첨단 성능을 달성함을 입증하였다. 프로젝트는 다음 링크에서 확인할 수 있다: https://github.com/FreedomIntelligence/EchoX.

소스 PDF 코드 보기

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

에코X: 음성-음성 LLM을 위한 에코 훈련을 통한 음향-의미 간 격차 완화 방향 | 문서 | HyperAI초신경