Command Palette
Search for a command to run...
Step-Audio 2 기술 보고서
Step-Audio 2 기술 보고서
초록
이 논문은 산업 수준의 음성 이해와 대화를 위한 엔드투엔드 다모달 대규모 언어 모델인 Step-Audio~2를 제시한다. 잠재적 음성 인코더와 중심적인 추론을 기반으로 한 강화 학습(Reinforcement Learning, RL)을 통합함으로써, Step-Audio 2는 자동 음성 인식(Automatic Speech Recognition, ASR)과 음성 이해에서 높은 성능을 달성하였다. 진정한 엔드투엔드 음성 대화를 가능하게 하기 위해 Step-Audio 2는 언어 모델링에 이산적 음성 토큰 생성을 포함하고 있으며, 이는 말하는 스타일과 감정과 같은 파라라인구이스틱 정보에 대한 반응성을 크게 향상시킨다. 현실 세계의 풍부한 텍스트 및 음향 지식을 효과적으로 활용하기 위해 Step-Audio 2는 검색 증강 생성(Retrieval-Augmented Generation, RAG)을 통합하고, 환상(Hallucination)을 완화하기 위해 웹 검색과 같은 외부 도구를 호출하거나, 음색을 전환하기 위한 음성 검색 기능을 지원한다. 수백만 시간에 달하는 음성 및 음향 데이터로 훈련된 Step-Audio 2는 다양한 대화 시나리오에서 지능과 표현력을 제공한다. 평가 결과는 다른 오픈소스 및 상용 솔루션과 비교해 Step-Audio 2가 다양한 음성 이해 및 대화 기준에서 최첨단 성능을 달성함을 보여준다. 자세한 정보는 https://github.com/stepfun-ai/Step-Audio2를 참조하시기 바랍니다.