HyperAI초신경

CSM 대화형 음성 생성 모델 데모

1. 튜토리얼 소개

CSM(Conversational Speech Model)은 세서미 팀이 2025년에 개발한 대화형 음성 모델입니다. 자연스럽고 일관된 음성 생성 기술을 통해 음성 비서의 감정적 상호작용 역량을 향상시키는 것을 목표로 합니다. 이 모델은 다중 모드 학습 프레임워크를 기반으로 하며, 텍스트와 음성 데이터를 결합하고, 엔드투엔드 트랜스포머 아키텍처를 사용하여 자연스럽고 감정적인 음성을 직접 생성합니다. 텍스트와 오디오 입력을 기반으로 RVQ 오디오 코드를 생성할 수 있습니다. 모델 아키텍처는 Llama 백본과 Mimi 오디오 코드를 생성하는 작은 오디오 디코더를 사용합니다.

이 튜토리얼에서는 CSM-1B 모델을 사용하여 2인 대화를 구현하고(영어 생성만 지원), 컴퓨팅 파워 리소스로 RTX 4090을 사용합니다.

2. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 말하는 객체를 설정하세요

3. 대화 및 음성 합성 설정(영어 생성만 지원)

교류 및 토론

🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓