7 个月前

音频和语音处理

自然语言处理

自然语言处理

Tan Lee Haipeng Wang

摘要

本文介绍了香港中文大学（CUHK）为MediaEval 2014语音查询示例搜索（Query by Example Search on Speech, QUESST）任务所开发的语音关键词搜索系统。该系统采用后验概率特征（posterior features）与动态时间规整（Dynamic Time Warping, DTW）相结合的方法进行关键词匹配。系统利用多种分词器（tokenizer）生成不同类型的后验特征，并通过线性组合的方式对DTW距离矩阵进行融合。本年度系统的主要贡献在于提出了一种多视角分段聚类（Multiview Segment Clustering, MSC）方法，用于无监督地构建自动语音识别（Automatic Speech Modeling, ASM）分词器。在评测集上的实验结果表明，所提交系统的Cnxe值和ATWV值分别为0.682和0.412。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

音频和语音处理

自然语言处理

自然语言处理

Tan Lee Haipeng Wang

摘要

本文介绍了香港中文大学（CUHK）为MediaEval 2014语音查询示例搜索（Query by Example Search on Speech, QUESST）任务所开发的语音关键词搜索系统。该系统采用后验概率特征（posterior features）与动态时间规整（Dynamic Time Warping, DTW）相结合的方法进行关键词匹配。系统利用多种分词器（tokenizer）生成不同类型的后验特征，并通过线性组合的方式对DTW距离矩阵进行融合。本年度系统的主要贡献在于提出了一种多视角分段聚类（Multiview Segment Clustering, MSC）方法，用于无监督地构建自动语音识别（Automatic Speech Modeling, ASM）分词器。在评测集上的实验结果表明，所提交系统的Cnxe值和ATWV值分别为0.682和0.412。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供