6 个月前

摘要

本文介绍了印度理工学院孟买分校（I.I.T. Bombay）在MediaEval 2015评估框架下，针对语音查询任务（Query-by-Example Search on Speech Task, QUESST）所开发的系统。该系统首先对原始数据进行预处理，以消除噪声；随后，利用四个语音识别系统提取的后验概率（posterior）或瓶颈特征（bottleneck features），在子序列层面执行动态时间规整（subsequence DTW）以检测查询内容。各子系统的得分经过融合，生成每个查询-语音片段对的单一得分，并基于交叉熵（cross entropy）评估指标对该得分进行校准。

源 PDF