6 个月前

音频和语音处理

Fernando Perdigão Arlindo Veiga Jorge Proença

摘要

本文简要介绍了由科英布拉校区（Coimbra）的电信研究所语音处理实验室（SPL-IT）提交至MediaEval 2014年“语音示例查询搜索任务”（Query by Example Search on Speech Task, QUESST）的系统方案。我们的方法基于融合三种不同语言的音素识别系统输出结果。为应对该任务中部分特殊搜索情形，我们开发了一种基于后验概率图（posteriorgram）距离的动态时间规整（Dynamic Time Warping, DTW）变体。主要提交方案结合了两种策略：一是采用简单的DTW方法以检测完整的查询；二是允许截断查询末尾部分的改进版本。后期提交则整合了五种方法，全面覆盖任务中描述的所有搜索可能性，尽管仅在类型3的查询上于评估数据集上观察到性能提升。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

Fernando Perdigão Arlindo Veiga Jorge Proença

摘要

本文简要介绍了由科英布拉校区（Coimbra）的电信研究所语音处理实验室（SPL-IT）提交至MediaEval 2014年“语音示例查询搜索任务”（Query by Example Search on Speech Task, QUESST）的系统方案。我们的方法基于融合三种不同语言的音素识别系统输出结果。为应对该任务中部分特殊搜索情形，我们开发了一种基于后验概率图（posteriorgram）距离的动态时间规整（Dynamic Time Warping, DTW）变体。主要提交方案结合了两种策略：一是采用简单的DTW方法以检测完整的查询；二是允许截断查询末尾部分的改进版本。后期提交则整合了五种方法，全面覆盖任务中描述的所有搜索可能性，尽管仅在类型3的查询上于评估数据集上观察到性能提升。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供