온라인 튜토리얼 | 3가지 음성 복제 모델에 대한 실제 평가, GPT-SoVITS는 "사지냥냥"의 특성을 정확하게 파악합니다.

춘절 영화 '나자2'의 흥행 수익은 폭발적으로 증가하여 현재 120억 달러를 돌파하였고, 중국 영화 최초로 흥행 수익 100억 달러를 돌파하였으며, 전 세계 영화사 흥행 순위 10위권에 성공적으로 진입하였습니다. 영화에서 성우들은 생생한 목소리로 캐릭터에 생기를 불어넣었습니다. 나타의 연기 같은 목소리부터 타이이 진런의 쓰촨 사투리, 스지 니앙니앙의 생동감까지, 이 모든 것이 대중 사이에서 폭넓은 논의를 불러일으켰고, 더빙의 예술성이 전면에 부각되었습니다.
더빙 예술의 매력에 관해서 말하자면, '왕의 영광'에서 미월이 연기한 백경징 피부는 완벽한 예입니다. 공식 홈페이지에서는 영화 '서유기'에서 바이징징 역을 맡았던 왕후이쥔을 특별히 초빙해 다시 한번 그녀의 목소리를 맡겼습니다. "당신과 나는 놓아주는 것 역시 일종의 신의 뜻이라고 믿어야 합니다." 익숙한 대사가 나오자 많은 사람들의 청춘의 분노가 즉시 깨어났고, 플레이어들은 이러한 감정에 "후한 기부"를 했습니다.
오늘날 음성 복제 기술은 급속히 발전하고 있습니다. 고급 음성 복제 모델을 사용하면 일반인도 시간과 공간을 초월하여 좋아하는 캐릭터의 독특한 음성을 클릭 한 번으로 복제하고 "더빙 중독"을 쉽게 만족시킬 수 있습니다! 현재,GPT-SoVITS, Fish Speech v1.4, F5-E2 TTS 등 3가지 주요 오픈소스 모델이 두드러집니다.각각의 고유한 장점을 통해 다양한 응용 시나리오에서 핵심적인 역할을 합니다. 영화나 TV 프로그램 제작, 오디오 콘텐츠 제작, 일상적인 더빙 등 어떤 분야에서든 그들을 찾을 수 있습니다.
HyperAI 공식 웹사이트의 "튜토리얼" 섹션이 이제 온라인에 공개되었습니다.
* GPT-SoVITS 오디오 합성 온라인 데모:
https://hyper.ai/cn/tutorials/29812
* Fish Speech v1.4 음성 복제 - 텍스트 음성 변환 도구 데모:
https://hyper.ai/cn/tutorials/34680
* F5-E2 TTS는 단 3초 만에 모든 사운드를 복제합니다.
https://hyper.ai/cn/tutorials/35468
오늘은 이 세 가지 사운드 클로닝 오픈소스 모델을 자세히 소개해 드리고, 동일한 원본 오디오와 프롬프트를 사용하여 실제 사용 효과를 평가하는 데 도움을 드리겠습니다!
GPT-SoVITS 오디오 합성
* 출시 시간:2022
* 발급 기관:B 스테이션 업 마스터 화얼 부쿠
* 원클릭 배포:
https://hyper.ai/cn/tutorials/29812
이 모델은 SoVITS+Transformer 음성 코딩 기술을 사용했으며, 출시되자마자 AI 음성 합성계에서 큰 반향을 일으켰습니다. 고충실도 음성 합성 효과는 타의 추종을 불허합니다. 단 5초 분량의 사운드 샘플만으로도 0샘플의 텍스트-음성(TTS) 변환이 가능합니다.
영화 나타에 등장하는 스지 니앙니앙의 목소리를 예로 들면, GPT-SoVITS를 사용하면 영화에서 스지 니앙니앙의 고전적인 대사를 오디오 샘플로 수집하기만 하면 그녀의 사랑스럽고 생기 넘치며 강력한 목소리를 정확하게 재현할 수 있습니다.
Fish Speech v1.4 음성 복제
* 출시 시간:2024
* 발급 기관:피쉬 오디오 팀
* 원클릭 배포:
https://hyper.ai/cn/tutorials/34680
이 모델은 약 15만 시간 분량의 데이터로 훈련되었으며, 중국어, 일본어, 영어에 능통합니다. 언어 처리 능력은 인간 수준에 가깝고, 음성 표현은 풍부하고 다양합니다. 사용자는 음색, 음높이, 말하는 속도 등을 자유롭게 조정하여 자신만의 독특한 목소리를 쉽게 만들어 다양한 창의적인 상황에서 각자의 캐릭터 음성에 대한 개인화된 요구를 충족할 수 있습니다.
F5-E2 TTS는 단 3초 만에 모든 사운드를 복제합니다.
* 출시 시간:2024
* 발급 기관:상하이 교통대학교, 케임브리지대학교, 지리자동차연구소(닝보)유한공사
* 원클릭 배포:
https://hyper.ai/cn/tutorials/35468
F5 TTS는 스트림 매칭을 기반으로 한 비자기회귀 생성 방법과 Diffusion Transformer(DiT) 기술을 결합하여 추가 감독 없이 제로샷 학습을 통해 원본 텍스트에 자연스럽고 유창하며 충실한 음성을 빠르게 생성할 수 있습니다. E2 TTS의 핵심은 완전히 비자기회귀적 기능에 있습니다. 단계별 생성이 필요 없이 전체 음성 시퀀스를 한 번에 생성할 수 있어 생성 속도가 크게 향상되고 고품질 음성 출력이 유지되며, 3초 만에 다중 톤 혼합 복제가 가능합니다.
이 모델은 3가지 기능을 지원합니다.
* 단일 사용자 음성 생성(일괄 TTS): 업로드된 오디오를 기반으로 텍스트를 생성합니다.
* 팟캐스트 세대:2인 오디오를 기반으로 2인 대화를 시뮬레이션합니다.
* 다양한 음성 유형 생성:서로 다른 감정을 지닌 동일한 화자의 오디오를 기반으로 서로 다른 감정을 지닌 오디오를 생성할 수 있습니다.
위의 내용은 우리가 여러분을 위해 준비한 사운드 클로닝 모델에 대한 리뷰입니다. 관심이 있으시다면, 직접 와서 경험해 보세요!