Discord에서 논의하기

10달 전

Boyong Wu Chao Yan Chen Hu Cheng Yi Chengli Feng Fei Tian Feiyu Shen Gang Yu Haoyang Zhang Jingbei Li

초록

이 논문은 산업 수준의 음성 이해와 대화를 위한 엔드투엔드 다모달 대규모 언어 모델인 Step-Audio~2를 제시한다. 잠재적 음성 인코더와 중심적인 추론을 기반으로 한 강화 학습(Reinforcement Learning, RL)을 통합함으로써, Step-Audio 2는 자동 음성 인식(Automatic Speech Recognition, ASR)과 음성 이해에서 높은 성능을 달성하였다. 진정한 엔드투엔드 음성 대화를 가능하게 하기 위해 Step-Audio 2는 언어 모델링에 이산적 음성 토큰 생성을 포함하고 있으며, 이는 말하는 스타일과 감정과 같은 파라라인구이스틱 정보에 대한 반응성을 크게 향상시킨다. 현실 세계의 풍부한 텍스트 및 음향 지식을 효과적으로 활용하기 위해 Step-Audio 2는 검색 증강 생성(Retrieval-Augmented Generation, RAG)을 통합하고, 환상(Hallucination)을 완화하기 위해 웹 검색과 같은 외부 도구를 호출하거나, 음색을 전환하기 위한 음성 검색 기능을 지원한다. 수백만 시간에 달하는 음성 및 음향 데이터로 훈련된 Step-Audio 2는 다양한 대화 시나리오에서 지능과 표현력을 제공한다. 평가 결과는 다른 오픈소스 및 상용 솔루션과 비교해 Step-Audio 2가 다양한 음성 이해 및 대화 기준에서 최첨단 성능을 달성함을 보여준다. 자세한 정보는 https://github.com/stepfun-ai/Step-Audio2를 참조하시기 바랍니다.

소스 PDF 코드 보기

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Discord에서 논의하기

10달 전

Boyong Wu Chao Yan Chen Hu Cheng Yi Chengli Feng Fei Tian Feiyu Shen Gang Yu Haoyang Zhang Jingbei Li

초록

이 논문은 산업 수준의 음성 이해와 대화를 위한 엔드투엔드 다모달 대규모 언어 모델인 Step-Audio~2를 제시한다. 잠재적 음성 인코더와 중심적인 추론을 기반으로 한 강화 학습(Reinforcement Learning, RL)을 통합함으로써, Step-Audio 2는 자동 음성 인식(Automatic Speech Recognition, ASR)과 음성 이해에서 높은 성능을 달성하였다. 진정한 엔드투엔드 음성 대화를 가능하게 하기 위해 Step-Audio 2는 언어 모델링에 이산적 음성 토큰 생성을 포함하고 있으며, 이는 말하는 스타일과 감정과 같은 파라라인구이스틱 정보에 대한 반응성을 크게 향상시킨다. 현실 세계의 풍부한 텍스트 및 음향 지식을 효과적으로 활용하기 위해 Step-Audio 2는 검색 증강 생성(Retrieval-Augmented Generation, RAG)을 통합하고, 환상(Hallucination)을 완화하기 위해 웹 검색과 같은 외부 도구를 호출하거나, 음색을 전환하기 위한 음성 검색 기능을 지원한다. 수백만 시간에 달하는 음성 및 음향 데이터로 훈련된 Step-Audio 2는 다양한 대화 시나리오에서 지능과 표현력을 제공한다. 평가 결과는 다른 오픈소스 및 상용 솔루션과 비교해 Step-Audio 2가 다양한 음성 이해 및 대화 기준에서 최첨단 성능을 달성함을 보여준다. 자세한 정보는 https://github.com/stepfun-ai/Step-Audio2를 참조하시기 바랍니다.

소스 PDF 코드 보기

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Step-Audio 2 기술 보고서 | 문서 | HyperAI초신경