6 个月前

音频和语音处理

Andrew Rosenberg Min Ma

摘要

本文介绍了纽约市立大学皇后学院语音实验室（Speech Lab, Queens College, CUNY）开发的两个基于示例查询（query-by-example）系统。我们的系统旨在从选定的参考语料库文件中快速返回搜索结果。为获取查询语料与参考语料的音素序列，系统采用了三种语音识别器（捷克语、匈牙利语和俄语）。对每个查询序列，均采用全局对齐器与局部对齐器分别与所有参考序列进行比对。在第一个系统中，基于序列对齐结果预测最可能的参考文件；在第二个系统中，首先从参考序列中剪枝出能够实现最优局部符号对齐的子序列，随后提取查询语料及子序列的39维MFCC特征。两个系统均采用了优化的动态时间规整（DTW）算法，分别在测试数据上取得了Cnxe值为0.9989和1.0674的性能表现。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

Andrew Rosenberg Min Ma

摘要

本文介绍了纽约市立大学皇后学院语音实验室（Speech Lab, Queens College, CUNY）开发的两个基于示例查询（query-by-example）系统。我们的系统旨在从选定的参考语料库文件中快速返回搜索结果。为获取查询语料与参考语料的音素序列，系统采用了三种语音识别器（捷克语、匈牙利语和俄语）。对每个查询序列，均采用全局对齐器与局部对齐器分别与所有参考序列进行比对。在第一个系统中，基于序列对齐结果预测最可能的参考文件；在第二个系统中，首先从参考序列中剪枝出能够实现最优局部符号对齐的子序列，随后提取查询语料及子序列的39维MFCC特征。两个系统均采用了优化的动态时间规整（DTW）算法，分别在测试数据上取得了Cnxe值为0.9989和1.0674的性能表现。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供