Discord에서 논의하기

5달 전

음성 및 음성 처리

Yuhang Dai Ziyu Zhang Shuai Wang Longhao Li Zhao Guo Tianlun Zuo Shuiyuan Wang Hongfei Xue Chengyou Wang Qing Wang

초록

방언에 대한 대규모 오픈소스 데이터의 부족은 음성 기술 분야의 발전을 심각하게 저해하고 있으며, 특히 중국어에서 널리 사용되는 사천어 방언에 있어서 이 문제는 더욱 심각하다. 이러한 핵심적인 격차를 보완하기 위해, 우리는 방언 음성 데이터 처리를 위한 완전한 데이터 처리 프레임워크인 새로운 '사천파이프라인(Chuan-Pipeline)'을 활용하여 구성한 총 1만 시간 분량의 풍부한 주석 정보를 갖춘 어휘 데이터베이스인 WenetSpeech-Chuan을 소개한다. 본 데이터베이스의 효과성을 검증하고 엄격한 평가를 가능하게 하기 위해, 수작업으로 검증된 발음 전사 정보를 포함한 고품질의 음성 인식(ASR) 및 음성 합성(TTS) 벤치마크인 WenetSpeech-Chuan-Eval도 함께 공개한다. 실험 결과, WenetSpeech-Chuan으로 훈련된 모델은 오픈소스 시스템 중에서 최고 수준의 성능을 달성하며, 상용 서비스와 비교 가능한 결과를 보였다. WenetSpeech-Chuan은 사천어 방언 분야에서 가장 큰 오픈소스 데이터베이스로서, 방언 음성 처리 연구에 대한 접근 장벽을 낮추는 동시에 인공지능의 공정성 확보와 음성 기술 내 편향 완화에 핵심적인 역할을 한다. 본 데이터베이스, 벤치마크, 모델 및 관련 자료는 프로젝트 페이지에서 공개되어 누구나 자유롭게 이용할 수 있다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Discord에서 논의하기

5달 전

음성 및 음성 처리

Yuhang Dai Ziyu Zhang Shuai Wang Longhao Li Zhao Guo Tianlun Zuo Shuiyuan Wang Hongfei Xue Chengyou Wang Qing Wang

초록

방언에 대한 대규모 오픈소스 데이터의 부족은 음성 기술 분야의 발전을 심각하게 저해하고 있으며, 특히 중국어에서 널리 사용되는 사천어 방언에 있어서 이 문제는 더욱 심각하다. 이러한 핵심적인 격차를 보완하기 위해, 우리는 방언 음성 데이터 처리를 위한 완전한 데이터 처리 프레임워크인 새로운 '사천파이프라인(Chuan-Pipeline)'을 활용하여 구성한 총 1만 시간 분량의 풍부한 주석 정보를 갖춘 어휘 데이터베이스인 WenetSpeech-Chuan을 소개한다. 본 데이터베이스의 효과성을 검증하고 엄격한 평가를 가능하게 하기 위해, 수작업으로 검증된 발음 전사 정보를 포함한 고품질의 음성 인식(ASR) 및 음성 합성(TTS) 벤치마크인 WenetSpeech-Chuan-Eval도 함께 공개한다. 실험 결과, WenetSpeech-Chuan으로 훈련된 모델은 오픈소스 시스템 중에서 최고 수준의 성능을 달성하며, 상용 서비스와 비교 가능한 결과를 보였다. WenetSpeech-Chuan은 사천어 방언 분야에서 가장 큰 오픈소스 데이터베이스로서, 방언 음성 처리 연구에 대한 접근 장벽을 낮추는 동시에 인공지능의 공정성 확보와 음성 기술 내 편향 완화에 핵심적인 역할을 한다. 본 데이터베이스, 벤치마크, 모델 및 관련 자료는 프로젝트 페이지에서 공개되어 누구나 자유롭게 이용할 수 있다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

웨넷스피치천: 방언 음성 처리를 위한 풍부한 주석을 갖춘 대규모 쓰촨어 어말집 | 문서 | HyperAI초신경