
摘要
本文介绍了印度理工学院孟买分校(I.I.T. Bombay)在MediaEval 2015评估框架下,针对语音查询任务(Query-by-Example Search on Speech Task, QUESST)所开发的系统。该系统首先对原始数据进行预处理,以消除噪声;随后,利用四个语音识别系统提取的后验概率(posterior)或瓶颈特征(bottleneck features),在子序列层面执行动态时间规整(subsequence DTW)以检测查询内容。各子系统的得分经过融合,生成每个查询-语音片段对的单一得分,并基于交叉熵(cross entropy)评估指标对该得分进行校准。