18日前
CUNYシステム:MediaEval 2015における音声タスク向け例示による検索(Query-by-Example Search)への応用
{Andrew Rosenberg, Min Ma}

要約
本稿では、クイーンズ・カレッジ(CUNY)のスピーチラボが開発した2つの例示による照合(query-by-example)システムについて述べる。これらのシステムは、選択された参照ファイルから迅速な検索結果を返すことを目的としている。クエリ音声ファイルおよび参照音声ファイルの音素列を取得するために、チェコ語、ハンガリー語、ロシア語の3種類の音声認識器を用いた。各クエリ音素列について、グローバルアライナーとローカルアライナーの両方を用いて、すべての参照音素列と比較した。第1のシステムでは、音素列のアライメント結果に基づき、最も確率の高い参照ファイルを予測した。第2のシステムでは、最良のローカル記号的アライメントをもたらす部分列を参照音素列から削除(プルーニング)し、クエリおよび部分列に対してそれぞれ39次元のMFCC特徴量を抽出した。両システムとも最適化されたDTW(動的時間歪み)を採用し、テストデータ上でCnxe値はそれぞれ0.9989および1.0674を達成した。