튜토리얼 포함: 음성 복제 모델 GPT-SoVITS, 5초 분량의 음성으로 95% 유사도의 음성을 복제할 수 있습니다.

'음성'은 인간이 AI와 접촉하는 '초기 교육 기술'이며, 실험실에서 나와 수천 가구에 도입된 최초의 AI 기술 중 하나이기도 합니다. 초기에 지능형 음성에 대한 연구는 음성 인식, 즉 기계가 인간의 언어를 이해하도록 하는 데 초점을 맞췄습니다.
최초의 컴퓨터 기반 음성 인식 시스템은 AT&T 벨 연구소에서 개발한 오드리(Audrey)로, 영어 숫자 10개를 인식할 수 있었습니다. 1988년, 카이푸 리는 은닉 마르코프 모델을 기반으로 한 최초의 대규모 어휘 음성 인식 시스템인 스핑크스를 구현했습니다. 1997년, 세계 최초의 소비자 중심 연속 음성 받아쓰기 시스템인 Dragon NaturallySpeaking이 공식 출시되었습니다. 2009년에 Microsoft는 음성 기능을 Windows 7 운영 체제에 통합했습니다.
2011년에는 획기적인 제품인 iPhone 4S가 출시되었습니다. 시리의 탄생으로 지능형 음성 인식은 단순한 인식을 넘어 "상호작용"의 새로운 단계로 접어들었습니다.같은 해, Google은 Google 검색을 내부적으로 테스트하고 앞으로 며칠 안에 Google.com에서 음성 검색을 출시할 것이라고 발표했습니다.
듣는 것에서 말하는 것으로의 전환 역시 인간과 컴퓨터 상호작용의 번영과 발전을 위한 중요한 초석입니다. 요즘은 스마트 홈, 스마트 운전, 로봇 등 AI가 끊임없이 업그레이드되면서 음성 상호작용이 더욱 원활해졌고, 다양한 응용 분야가 활발하게 발전하고 있습니다. 기술적인 측면에서 주요 클라우드 컴퓨팅 공급업체는 API 형태로 AI 음성 기능을 오픈 소스로 공개하여 개발자가 이를 기반으로 애플리케이션을 추가로 구축할 수 있도록 했습니다.
최근 몇 년 동안 대형 모델이 계속해서 인기를 얻으면서 모델 수준에서 직접 활용되는 오픈소스 기능에 대한 관심이 점점 더 높아지고 있습니다. 개발자는 모델을 훈련하고 미세 조정하여 모델과 개발한 애플리케이션 간의 배포 효과를 더욱 개선할 수 있습니다.
요전,RVC(검색 기반 음성 변환)(GitHub 계정: RVC-Boss)의 창립자가 음성 복제 프로젝트 GPT-SoVITS를 오픈 소스로 공개했습니다.출시되자마자 큰 인기를 얻었습니다. 많은 블로거와 개발자가 인기 있는 영화와 TV 캐릭터, 애니메이션 캐릭터의 목소리를 사용하여 다양한 범선 대사를 맞춤 제작했습니다. 극적인 효과와 사용하기 쉬운 경험 또한 많은 네티즌들의 관심을 끌었고, 이는 다시 한번 인기를 더했습니다. 유명 블로거들의 테스트에 따르면, 5초 분량의 음성 샘플만 제공하면 80%~95% 수준의 유사성을 가진 복제 음성을 얻을 수 있다고 합니다.
현재, 모델 배포 튜토리얼이 HyperAI 공식 웹사이트에 출시되었습니다. 복제를 시작하려면 클릭하세요:
https://hyper.ai/tutorials/29812
편집자는 원작 캐릭터인 파이몬에게 진환전의 여왕 역으로 카메오 출연해 달라고 요청했습니다.파이멍, 단 몇 초 만에 울라나라 황후로 등극.
B스테이션 인기 업마스터 잭큐이가 만든 AI 음성 복제 튜토리얼은 다음과 같습니다.
단계별 튜토리얼은 다음과 같습니다. 5초 분량의 말이 준비되면 음성 복제 모델 훈련을 시작할 수 있습니다!
데이터 준비
현재 이 튜토리얼에서는 모든 사람이 경험할 수 있도록 많은 고전적인 캐릭터 톤을 미리 설정해 두었습니다. 다른 음색을 복제하려면 MP3 형식의 음색 오디오 파일을 준비해야 하며, 보컬이 1개(약 30초)인 것이 좋습니다. 고품질 오디오 파일은 복제된 사운드의 사실감을 향상시킬 수 있습니다.
1. "이 튜토리얼을 온라인으로 실행"을 클릭하여 OpenBayes 플랫폼으로 이동합니다.

2. "복제"를 클릭하여 모델을 복사합니다. (이 단계에서는 B 스테이션의 업마스터인 잭-큐이가 업로드한 사운드만 체험 가능합니다)

3. 복제된 사운드를 사용자 지정하려면 새로운 데이터 세트를 만들어야 합니다. 왼쪽 메뉴 막대에서 "데이터 세트"로 이동한 후 "새 데이터 세트 만들기"를 클릭합니다.

4. 필요에 따라 "데이터세트 이름"과 "데이터세트 설명"을 입력한 후 "데이터세트 만들기"를 클릭합니다.

5. 생성이 완료되면 오른쪽 상단의 "새 버전 업로드"를 클릭하고 복제하려는 오디오 파일을 업로드하세요.

데모 실행
1. 데이터 준비가 완료되면 왼쪽 메뉴 바의 "공개 튜토리얼"에서 "GPT-SoVITS 오디오 합성 온라인 데모"를 열고 튜토리얼 페이지로 돌아와 오른쪽 상단의 "복제"를 클릭하여 튜토리얼을 자신의 컨테이너에 복제합니다.


2. 현재 데모에서는 클리, 화귀비, 진환, 지방주의 오디오 데이터를 바인딩했습니다. 현재 바인딩된 데이터의 수가 가득 찼습니다. 불필요한 오디오 데이터를 삭제하고 나만의 데이터 세트를 추가할 수 있습니다.

3. 추가 후 "검토 및 실행"을 클릭하세요.
4. 해당 페이지로 이동한 후 "계속"을 클릭하세요. RTX 4090을 권장합니다.
편집자는 모든 사용자를 위한 새로운 사용자 혜택을 확보했습니다! 신규 사용자는 아래 초대 링크를 사용하여 등록하고 4시간의 RTX 4090과 5시간의 무료 CPU 컴퓨팅 시간을 얻을 수 있습니다.
HyperAI 독점 초대 링크(복사하여 브라우저에서 열어서 등록하세요):
https://openbayes.com/console/signup?r=Ada0322_QZy7

5. 상태가 "실행 중"으로 변경될 때까지 잠시 기다린 후 "작업 공간 열기"를 클릭하세요. 컨테이너를 처음 복제하고 시작하는 데는 약 3~5분이 걸립니다. 10분이 지나도 여전히 "리소스 할당 중" 상태인 경우 컨테이너를 중지했다가 다시 시작해 보세요. 재시작해도 문제가 해결되지 않으면 공식 웹사이트의 플랫폼 고객 서비스에 문의하세요.

6. 작업공간을 연 후, 왼쪽에 있는 "run.ipynb"를 클릭하고, 메뉴바에서 "실행" 버튼을 클릭하고, "모든 셀 실행"을 클릭합니다.

7. "공개 URL에서 실행"을 찾아 링크를 엽니다.

8. "데이터셋 주소" 모듈에서 이번에 사운드를 복제하려는 데이터셋의 주소를 입력합니다. 오디오 데이터 유형을 선택한 후 "훈련 시작"을 클릭하세요. 출력 결과에 "모델이 예측을 시작하는 중입니다. 잠시만 기다려 주세요."가 표시되면 "run.ipynb"로 돌아가면 "GPT 학습이 완료되었습니다."라는 메시지가 표시됩니다.




9. 오른쪽의 "API 주소"를 엽니다. API 주소 접근 기능을 이용하기 위해서는 이용자는 실명인증을 완료해야 합니다.

효과 표시
1. "GPT 모델 목록"과 "SoVITS 모델 목록"에서 학습된 모델을 선택한 다음 "추론 텍스트"에 텍스트를 입력하고 "추론 시작"을 클릭한 후 잠시 기다리면 재미있게 학습할 수 있습니다!

현재 HyperAI 공식 웹사이트에서는 Jupyter 노트북 형태로 구성된 수백 개의 선택된 머신 러닝 관련 튜토리얼을 출시했습니다.
관련 튜토리얼과 데이터 세트를 검색하려면 링크를 클릭하세요.