AISHELL-안녕, 미아 중국어 및 영어 깨우기 단어 음성 데이터베이스
HI-MIA 데이터 세트는 2019년 AISHELL 스피커 검증 챌린지에 사용되었습니다.이는 AISHELL-WakeUp-1이라는 더 큰 데이터베이스에서 추출되었습니다.
데이터 세트는 HI-MIA 데이터 세트와 훈련 세트로 나뉘며, 콘텐츠는 중국어와 영어 웨이크업 단어 "Hi, Mia"입니다. 실제 가정 환경에서 마이크 어레이와 Hi-Fi 마이크를 사용하여 데이터를 수집했습니다.논문기준 시스템 수집 프로세스와 개발에 대해 설명합니다. 이 챌린지에 사용된 데이터는 1개의 Hi-Fi 마이크와 1/3/5미터 길이의 16채널 원형 마이크 어레이에서 추출되었습니다. 내용은 중국어로 '깨어나다'라는 뜻입니다. 전체 세트는 훈련(254명), 개발(42명), 테스트(44명) 하위 세트로 나뉩니다. 테스트 하위 집합은 검증 결과를 평가하기 위해 대상/비대상 답변을 짝지어 제공합니다.
AISHELL-WakeUp-1 음성 데이터베이스에는 3,936,003개의 웨이크업 단어 음성이 저장되어 있으며, 총 1,561.12시간 분량입니다.녹음 언어는 중국어와 영어입니다. 녹음 지역은 중국입니다. 녹음된 텍스트는 깨어나는 단어 "하이, 미아"입니다. 이 데이터 세트는 254명의 화자를 녹음에 초대했습니다. 녹음 과정은 실제 가정 환경에서 진행되었으며, 7개의 녹음 위치가 설정되었고, 원거리 통화 픽업(16kHz, 16비트)을 위한 6개의 원형 16채널 PDM 마이크 어레이 녹음 보드와 근거리 통화 픽업(44.1kHz, 16비트)을 위한 1개의 고음질 마이크를 사용했습니다. 이 데이터베이스는 전문 음성 교정자에 의해 필사 및 주석이 작성되었으며, 엄격한 품질 검사를 통과했으며, 단어 정확도는 100%입니다. 음성지문 인식, 음성 깨우기 인식 등의 연구에 활용될 수 있습니다.