온라인 튜토리얼 | CSM이 온다, 비켜! 더욱 생생한 음성 생성, 더 이상 지연되고 지루하며 기계적인 음성은 없습니다.

AI 음성 비서와 채팅할 때 항상 뭔가 이상한 느낌이 듭니다. 그들은 질문에 쉽게 대답했지만, "인간성"이 약간 부족했습니다. 목소리의 톤은 둔하고, 멈춤은 갑작스럽고, 가끔 설명할 수 없는 부분에서는 멈추기도 합니다. 이런 비인간적이고 비인간적인 느낌이 실제로 작용하는 것이 바로 "불쾌한 계곡 효과"입니다. AI의 음성이 인간의 음성과 매우 유사하지만 완벽하게 일관되지 않으면 사용자는 불편함을 느낄 것입니다.
최근 세서미팀이 출시한 음성 생성 모델 CSM(Conversational Speech Model)은 많은 음성 모델 중에서도 두각을 나타내고 있습니다.이 모델은 Llama 백본 아키텍처와 가벼운 오디오 디코더를 엔드투엔드 Transformer 프레임워크와 결합하여 사용하여 텍스트와 오디오 입력을 기반으로 RVQ 오디오 코드를 생성한 다음 유창하고 자연스럽고 감정적인 음성을 출력합니다.사용자의 감정적 요구를 충족시킬 수 있는 음성 비서를 만들어 보세요.
기존 AI 음성 생성 모델과 비교했을 때 CSM은 단순히 오디오를 생성하는 것 이상의 기능을 수행합니다.
*더 강한 감정적 이해:맥락을 심층적으로 분석하고 톤과 억양을 유연하게 조절할 수 있습니다.
*더욱 자연스러운 대화 리듬:대화를 더 원활하게 만들기 위해 멈춤, 강조, 방해 등의 세부 사항을 미세하게 조정하세요.
* 거의 지연 없는 경험:효율적인 추론 아키텍처는 음성 생성을 실시간에 가깝게 만들고 상호작용 효율성을 향상시킵니다.
"CSM 대화형 음성 생성 모델 데모" 튜토리얼이 이제 HyperAI 공식 웹사이트에서 제공됩니다. 와서 확인해 보세요!
튜토리얼 주소:
데모 실행
1. hyper.ai에 로그인하고 튜토리얼 페이지로 이동하여 CSM 대화형 음성 생성 모델 데모를 선택하고 이 튜토리얼을 온라인으로 실행을 클릭합니다.


2. 페이지가 이동한 후 오른쪽 상단의 "복제"를 클릭하여 튜토리얼을 자신의 컨테이너로 복제합니다.

3. "NVIDIA RTX 4090"과 "PyTorch" 이미지를 선택하세요. OpenBayes 플랫폼에서 새로운 청구 방법이 출시되었습니다. 귀하의 요구 사항에 따라 "사용 후 결제" 또는 "일일/주간/월간 패키지"를 선택할 수 있습니다. "계속"을 클릭하세요. 신규 사용자는 아래 초대 링크를 사용하여 등록하고 RTX 4090 4시간 + CPU 자유 시간 5시간을 받으세요!
HyperAI 독점 초대 링크(복사하여 브라우저에서 열기):
https://go.openbayes.com/9S6Dr


4. 리소스가 할당될 때까지 기다리세요. 첫 번째 클로닝 과정은 약 2분이 걸립니다. 상태가 "실행 중"으로 변경되면 "API 주소" 옆에 있는 점프 화살표를 클릭하여 데모 페이지로 이동합니다. 모델이 크기 때문에 WebUI 인터페이스를 표시하는 데 약 3분이 걸리며, 그렇지 않으면 "잘못된 게이트웨이"가 표시됩니다. API 주소 접근 기능을 이용하기 위해서는 이용자는 실명인증을 완료해야 합니다.


효과 표시
개인 오디오를 선택하거나 업로드하고, 대화 내용을 입력한 후 "대화 생성"을 클릭하면 대화가 생성됩니다.
*기본적으로 발표자 A가 첫 번째 발표 라운드를 시작하고, 그 후 발표자 A와 발표자 B가 번갈아가며 발표를 진행합니다(현재 영어 콘텐츠 생성만 지원).

