Discord에서 논의하기

9달 전

Ryan Langman Xuesong Yang Paarth Neekhara Shehzeen Hussain et al

초록

이 논문에서는 고대역폭 음성 합성에 적합한 대규모 음성 데이터셋인 HiFiTTS-2를 소개한다. 이 데이터셋은 LibriVox 오디오북에서 유래하였으며, 22.05 kHz 학습을 위한 약 36.7천 시간의 영어 음성과 44.1 kHz 학습을 위한 약 31.7천 시간의 음성 데이터를 포함한다. 본 연구에서는 대역폭 추정, 음성 분할, 텍스트 전처리, 다중 발화자 탐지 등을 포함한 데이터 처리 파이프라인을 제시한다. 또한 본 파이프라인을 통해 생성된 발화 및 오디오북에 대한 상세한 메타데이터가 데이터셋과 함께 제공되며, 연구자들이 다양한 활용 사례에 맞게 데이터 품질 필터를 적용할 수 있도록 한다. 실험 결과, 제안하는 데이터 처리 파이프라인과 최종적으로 생성된 데이터셋이 고대역폭 환경에서 고품질의 제로샷 텍스트-투-음성(TTS) 모델 학습을 가능하게 함을 입증하였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Discord에서 논의하기

9달 전

Ryan Langman Xuesong Yang Paarth Neekhara Shehzeen Hussain et al

초록

이 논문에서는 고대역폭 음성 합성에 적합한 대규모 음성 데이터셋인 HiFiTTS-2를 소개한다. 이 데이터셋은 LibriVox 오디오북에서 유래하였으며, 22.05 kHz 학습을 위한 약 36.7천 시간의 영어 음성과 44.1 kHz 학습을 위한 약 31.7천 시간의 음성 데이터를 포함한다. 본 연구에서는 대역폭 추정, 음성 분할, 텍스트 전처리, 다중 발화자 탐지 등을 포함한 데이터 처리 파이프라인을 제시한다. 또한 본 파이프라인을 통해 생성된 발화 및 오디오북에 대한 상세한 메타데이터가 데이터셋과 함께 제공되며, 연구자들이 다양한 활용 사례에 맞게 데이터 품질 필터를 적용할 수 있도록 한다. 실험 결과, 제안하는 데이터 처리 파이프라인과 최종적으로 생성된 데이터셋이 고대역폭 환경에서 고품질의 제로샷 텍스트-투-음성(TTS) 모델 학습을 가능하게 함을 입증하였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

HiFiTTS-2: 대규모 고대역폭 음성 데이터셋 | 문서 | HyperAI초신경