초록

말하기 언어 모델(Speech Language Models, SLMs)은 음성 이해 및 생성을 위한 통합적인 접근 방식으로 부상하며, 자연스러운 인간-기계 상호작용을 가능하게 하고 있다. 그러나 대부분의 연구 성과는 의미 정확도와 지시어에 대한 따르기 능력에 집중한 반면, SLM이 말로 전달된 지시에 따라 말하는 스타일을 적응시키는 능력에 대한 연구는 여전히 제한적이다. 본 연구에서는 자연어로 전달된 말 명령에 따라 음색, 억양, 인물성(Persona) 등 말의 스타일을 수정할 수 있는지를 평가하는 새로운 과제인 '음성 스타일 적응(Voice Style Adaptation, VSA)'을 제안한다. 이 과제를 탐구하기 위해, 음성 특성, 자연어 지시, 역할극, 암시적 공감을 포함하는 네 가지 분야의 음성 생성을 아우르는 이중언어(중국어 및 영어) 기준 데이터셋인 VStyle을 제시한다. 또한, 텍스트 충실도, 스타일 준수 정도, 자연스러움을 단계적으로 평가하는 '대규모 음성 언어 모델을 심사자로 활용하는 프레임워크(Large Audio Language Model as a Judge, LALM as a Judge)'를 도입하여 재현 가능하고 객관적인 평가를 보장한다. 상용 시스템 및 오픈소스 SLM에 대한 실험 결과는 현재의 모델들이 제어 가능한 스타일 적응 측면에서 명확한 한계를 지닌다는 점을 보여주며, 본 과제의 독창성과 도전 과제를 강조한다. VStyle과 평가 툴킷을 공개함으로써, 인간 중심의 음성 상호작용 기술 발전을 위한 기반을 공동체에 제공하고자 한다. 데이터셋 및 코드는 다음과 같은 홈페이지에서 공개되어 있다: https://junzhan2000.github.io/VStyle.github.io/

소스 PDF 코드 보기