HyperAIHyperAI

Command Palette

Search for a command to run...

VStyle: 말하는 지시를 활용한 음성 스타일 적응을 위한 벤치마크

초록

말하기 언어 모델(Speech Language Models, SLMs)은 음성 이해 및 생성을 위한 통합적인 접근 방식으로 부상하며, 자연스러운 인간-기계 상호작용을 가능하게 하고 있다. 그러나 대부분의 연구 성과는 의미 정확도와 지시어에 대한 따르기 능력에 집중한 반면, SLM이 말로 전달된 지시에 따라 말하는 스타일을 적응시키는 능력에 대한 연구는 여전히 제한적이다. 본 연구에서는 자연어로 전달된 말 명령에 따라 음색, 억양, 인물성(Persona) 등 말의 스타일을 수정할 수 있는지를 평가하는 새로운 과제인 '음성 스타일 적응(Voice Style Adaptation, VSA)'을 제안한다. 이 과제를 탐구하기 위해, 음성 특성, 자연어 지시, 역할극, 암시적 공감을 포함하는 네 가지 분야의 음성 생성을 아우르는 이중언어(중국어 및 영어) 기준 데이터셋인 VStyle을 제시한다. 또한, 텍스트 충실도, 스타일 준수 정도, 자연스러움을 단계적으로 평가하는 '대규모 음성 언어 모델을 심사자로 활용하는 프레임워크(Large Audio Language Model as a Judge, LALM as a Judge)'를 도입하여 재현 가능하고 객관적인 평가를 보장한다. 상용 시스템 및 오픈소스 SLM에 대한 실험 결과는 현재의 모델들이 제어 가능한 스타일 적응 측면에서 명확한 한계를 지닌다는 점을 보여주며, 본 과제의 독창성과 도전 과제를 강조한다. VStyle과 평가 툴킷을 공개함으로써, 인간 중심의 음성 상호작용 기술 발전을 위한 기반을 공동체에 제공하고자 한다. 데이터셋 및 코드는 다음과 같은 홈페이지에서 공개되어 있다: https://junzhan2000.github.io/VStyle.github.io/


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
VStyle: 말하는 지시를 활용한 음성 스타일 적응을 위한 벤치마크 | 문서 | HyperAI초신경