6 个月前

摘要

本文介绍了我们为语音查询示例搜索任务（QUery by Example Search on Speech Task, QUESST）所构建的检索系统，该系统结合了基于后验概率图（posteriorgram）的建模方法与加权快速序列动态时间规整算法（Weighted Fast Sequential Dynamic Time Warping, WFS-DTW）。今年的主要工作聚焦于开发一种语言相关的关键词匹配系统，充分利用了语音数据库中所有可用的语种信息，并综合考虑了所有查询语句与语音语料文件。尽管所采用的检索算法与往年保持一致，但本年度的重大创新之处在于如何有效利用检索数据库中所有语种的综合信息。我们提交了两个面向低资源语言的系统，均基于语言相关的声学单元建模（Acoustic Unit Modeling, AUM）方法。第一个系统称为“监督式”系统，采用四个经过充分训练的音素解码器，其声学模型基于时间对齐且标注完整的语音数据进行训练。第二个系统为“无监督式”系统，针对特定语言采用盲音素分割技术，其语言信息来源于Mediaeval 2013与Mediaeval 2014数据库。此外，为评估其对整体检索性能的影响，我们对两种方法均开展了声学模型通过再训练实现针对特定语言的适应性优化研究。

源 PDF