NVIDIA开源多语言语音AI数据集与模型,推动全球语音技术发展
英伟达(NVIDIA)近日发布了一项重要开源成果,旨在推动多语言语音人工智能的发展。全球约有7000种语言,但目前仅有极少数被主流AI语言模型支持。为此,英伟达推出名为Granary的全新多语言语音数据集及配套模型,覆盖25种欧洲语言,包括克罗地亚语、爱沙尼亚语和马耳他语等数据稀缺语言。 该数据集由英伟达语音AI团队联合卡内基梅隆大学和布罗诺·凯斯勒基金会共同打造。通过其开源的NVIDIA NeMo语音数据处理工具包,团队构建了一套创新的数据处理流程,将大量未标注的语音数据自动转化为高质量、结构化的训练数据,无需依赖昂贵的人工标注。这一流程现已在GitHub上开源,助力开发者高效构建语音AI模型。 Granary数据集涵盖欧盟24种官方语言及俄语、乌克兰语,为开发更包容、更具语言多样性的语音技术提供了关键资源。研究显示,在实现相同识别与翻译准确率的情况下,使用Granary所需训练数据仅为其他主流数据集的一半。 为充分发挥数据集潜力,英伟达还推出了两款新模型:Canary-1b-v2和Parakeet-tdt-0.6b-v3。Canary-1b-v2在25种语言上实现高精度,性能媲美三倍规模的模型,推理速度提升最高达10倍,且支持准确的标点、大小写和词级时间戳。Parakeet-tdt-0.6b-v3则专注于低延迟、高吞吐,可在一次推理中完成长达24分钟音频的转录,并自动识别语言,无需额外提示。 这两款模型均已在Hugging Face平台开放,Canary-1b-v2采用宽松许可协议,便于广泛使用。其背后的技术方法可被复制用于其他语言或模型,推动全球语音AI创新。 相关论文将亮相8月17日至21日在荷兰举行的Interspeech国际语音处理会议。英伟达通过NeMo软件套件(包括NeMo Curator与NeMo Speech Data Processor)实现了数据清洗、对齐与格式转换的全流程自动化,显著提升了模型训练效率。这一系列开源举措,标志着英伟达在构建普惠、高效、多语言语音AI生态方面迈出关键一步。