7 个月前

音频和语音处理

自然语言处理

自然语言处理

Golshid Shekoufandeh Dragoș Alexandru Bălan

摘要

自动语音识别（Automatic Speech Recognition, ASR）系统能够将人类语音转换为文本，在实现人类通信的数字化方面发挥着关键作用。然而，尽管其重要性显著，目前大多数ASR系统主要针对资源丰富的语言（如英语、汉语和西班牙语）进行设计，导致资源较少的语言（如弗里斯兰语）在语音识别领域仍处于被忽视的状态。为解决这一问题，本文提出一种基于Wav2Vec 2.0 XLS-R架构的微调ASR模型，该模型在Common Voice语料库第12.0版本上进行训练，用于实现弗里斯兰语语音的转写。在学习率设置为8e-5的条件下，所提出的ASR系统取得了15.99%的词错误率（Word Error Rate, WER），优于此前的最先进水平（16.25%），为该领域的后续研究提供了重要基准。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

音频和语音处理

自然语言处理

自然语言处理

Golshid Shekoufandeh Dragoș Alexandru Bălan

摘要

自动语音识别（Automatic Speech Recognition, ASR）系统能够将人类语音转换为文本，在实现人类通信的数字化方面发挥着关键作用。然而，尽管其重要性显著，目前大多数ASR系统主要针对资源丰富的语言（如英语、汉语和西班牙语）进行设计，导致资源较少的语言（如弗里斯兰语）在语音识别领域仍处于被忽视的状态。为解决这一问题，本文提出一种基于Wav2Vec 2.0 XLS-R架构的微调ASR模型，该模型在Common Voice语料库第12.0版本上进行训练，用于实现弗里斯兰语语音的转写。在学习率设置为8e-5的条件下，所提出的ASR系统取得了15.99%的词错误率（Word Error Rate, WER），优于此前的最先进水平（16.25%），为该领域的后续研究提供了重要基准。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供