
要約
本論文では、MediaEval 2015評価フレームワーク内における音声タスク「Query-by-Example Search on Speech」(QUESST)において、I.I.T. ボンベイで開発されたシステムについて述べる。当システムは、ノイズ除去を目的としたデータ前処理を実施し、4つの電話認識システムを用いて得られた後方確率(posterior)およびボトルネック特徴量(bottleneck features)に対して部分列DTW(Dynamic Time Warping)を適用することで、クエリの検出を実現している。各サブシステムから得られるスコアを統合し、1つのクエリ-発話ペアに対する単一のスコアを算出する。その後、そのスコアは交差エントロピー評価指標に基づいて補正される。