HyperAIHyperAI

Command Palette

Search for a command to run...

곡물창고: 25개 유럽 언어의 음성 인식 및 번역 데이터셋

Nithin Rao Koluguri Monica Sekoyan George Zelenfroynd Sasha Meister Shuoyang Ding et al

초록

다중 작업 및 다국어 접근 방식은 대규모 모델에 유리하지만, 데이터 부족으로 인해 저자원 언어의 음성 처리는 여전히 탐색이 부족한 영역이다. 이를 해결하기 위해, 우리는 25개 유럽 언어에 걸쳐 음성 인식 및 번역을 위한 대규모 음성 데이터셋 컬렉션인 Granary를 제안한다. 본 연구는 음성 전사 및 번역 측면에서 이와 같은 규모의 오픈소스 데이터셋을 처음으로 구축한 사례이다. 우리는 분할(segmentation), 두 번의 추론(pass inference), 환상(혹은 부정확한 추측) 필터링, 구두점 복원을 포함한 의사 레이블링(pseudo-labeling) 파이프라인을 활용하여 데이터 품질을 향상시켰다. 또한, EuroLLM을 사용해 의사 레이블링된 전사 결과로부터 번역 쌍을 생성한 후, 데이터 정제 파이프라인을 적용하였다. 효율성을 고려해 설계된 본 파이프라인은 수백만 건에 달하는 데이터를 수시간 내에 처리할 수 있다. 처리된 데이터로 학습된 모델의 성능은 고자원 및 저자원 언어에 대해 기존에 체계적으로 정제된 데이터셋을 기반으로 비교 평가되었다. 그 결과, 본 모델들은 약 50% 적은 데이터로도 기존 모델과 유사한 성능을 달성함을 확인하였다. 본 데이터셋은 다음 URL에서 공개될 예정이다: https://[URL]


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
곡물창고: 25개 유럽 언어의 음성 인식 및 번역 데이터셋 | 문서 | HyperAI초신경