Granary 欧洲语音识别与翻译数据集

日期

14 天前

机构

NVIDIA(英伟达)

发布地址

huggingface.co

下载帮助

Granary 是由英伟达多地研究团队于 2025 年发布的一个大规模多语种语音数据集,相关论文成果为「Granary: Speech Recognition and Translation Dataset in 25 European Languages」,旨在为多语种 ASR/AST 模型提供高质量训练与评测素材。

该数据集包含约 100 万小时的高质量伪标记 ASR 语音数据,覆盖 25 种欧洲语言(含 23 种欧盟语言、以及乌克兰语和俄语)。数据来自公开语音语料并经统一的伪标注与质量过滤流程处理。

语种包括:

保加利亚语、捷克语、丹麦语、德语、希腊语、英语、西班牙语、爱沙尼亚语、芬兰语、法语、克罗地亚语、匈牙利语、意大利语、立陶宛语、拉脱维亚语、马耳他语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语、瑞典语、乌克兰语和俄语。