NVIDIA Unveils Open Dataset and Models to Advance Multilingual Speech AI for 25 European Languages
NVIDIA는 유럽 25개 언어를 지원하는 다국어 음성 AI를 위한 새로운 데이터셋 ‘그라나리(Granary)’와 모델 ‘캔어리(Canary)’, ‘파라키트(Parakeet)’를 공개했다. 전 세계 약 7,000개 언어 중 AI가 지원하는 것은 극히 일부이며, 특히 크로아티아어, 에스토니아어, 말타어처럼 데이터가 부족한 언어의 경우 기술적 한계가 컸다. 이에 NVIDIA는 카네기멜론 대학과 프론다치오 브루노 케슬러 연구소와 협력해, 공개된 음성 데이터를 자동으로 정제하는 혁신적 처리 파이프라인을 개발했다. 이 파이프라인은 NVIDIA NeMo 음성 데이터 프로세서 툴킷을 활용해 인간 라벨링 없이도 고품질 데이터를 생성했으며, GitHub에서 오픈소스로 공개됐다. 그라나리는 유럽연합 24개 공식 언어와 러시아어, 우크라이나어를 포함한 25개 언어의 음성 인식과 번역에 최적화됐으며, 기존 데이터셋 대비 절반 정도의 데이터로도 높은 정확도를 달성할 수 있다는 점에서 혁신적이다. Interspeech 2025에서 발표된 논문에서 이는 자동 음성 인식(ASR)과 자동 음성 번역(AST) 성능 측면에서 입증됐다. 캔어리-1b-v2는 정확도에 최적화된 모델로, 크기 3배 큰 기존 모델과 비슷한 성능을 내면서도 추론 속도가 최대 10배 빠르다. 파라키트-tdt-0.6b-v3는 낮은 지연과 높은 처리량을 목표로 하며, 24분 분량의 음성도 한 번의 추론으로 처리 가능하고, 입력 언어를 자동 감지해 추가 설정 없이 번역을 수행한다. 두 모델 모두 출력에 문장 부호, 대문자, 단어 수준 타임스탬프를 포함해 실무 적용에 적합하다. NVIDIA는 NeMo 소프트웨어 생애 주기 관리 플랫폼을 통해 데이터 정제, 오디오-텍스트 정렬, 포맷 변환 등의 작업을 자동화했으며, 이 과정에서 합성 데이터를 제거해 품질을 보장했다. 현재 그라나리 데이터셋과 모델은 허깅페이스에서 무료로 이용 가능하며, 개발자들은 이를 기반으로 다른 언어나 모델에 적용할 수 있다. 이는 글로벌 음성 AI 생태계의 접근성을 높이고, 다국어 챗봇, 고객 응대 음성 에이전트, 실시간 번역 서비스 등에 기여할 전망이다.