Granary 유럽 음성 인식 및 번역 데이터 세트

날짜

14일 전

기관

엔비디아

발행 주소

huggingface.co

다운로드 도움말

Granary는 NVIDIA의 다중 사이트 연구팀이 2025년에 공개한 대규모 다국어 음성 데이터 세트입니다. 관련 논문 결과는 다음과 같습니다.Granary: 25개 유럽 언어의 음성 인식 및 번역 데이터 세트"다국어 ASR/AST 모델에 대한 고품질의 교육 및 평가 자료를 제공하는 것을 목표로 합니다.

이 데이터 세트는 약 100만 시간 분량의 고품질 의사 레이블링된 ASR 음성 데이터를 포함하고 있으며, 25개 유럽 언어(23개 EU 언어와 우크라이나어, 러시아어 포함)를 포함합니다. 데이터는 공개적으로 이용 가능한 음성 코퍼스에서 수집되었으며, 통합 의사 레이블링 및 품질 필터링 프로세스를 거쳐 처리되었습니다.

언어는 다음과 같습니다.

불가리아어, 체코어, 덴마크어, 독일어, 그리스어, 영어, 스페인어, 에스토니아어, 핀란드어, 프랑스어, 크로아티아어, 헝가리어, 이탈리아어, 리투아니아어, 라트비아어, 몰타어, 네덜란드어, 폴란드어, 포르투갈어, 루마니아어, 슬로바키아어, 슬로베니아어, 스웨덴어, 우크라이나어, 러시아어.