6ヶ月前

概要

本稿では、音声タスクにおける例による検索（QUery by Example Search on Speech Task; QUESST）に対する検索システムを紹介する。本システムは、ポスタリオグラムに基づくモデリング手法と、重み付き高速逐次動的時系列変形（Weighted Fast Sequential Dynamic Time Warping; WFS-DTW）アルゴリズムを組み合わせたものである。今年度の主な取り組みは、すべてのクエリおよび発話ファイルについて利用可能な言語情報（spoken languages）を総合的に活用する、言語依存型キーワードマッチングシステムの開発であった。検索アルゴリズム自体は前年度と同一であるが、本年度の大きな革新点は、検索データベースに含まれるすべての言語に関する情報をどのように効果的に活用するかというアプローチにあり、その点に注力した。低リソース環境向けに、言語依存型音響単位モデリング（Acoustic Unit Modeling; AUM）手法を用いた2つのシステムを提出した。1つ目は「教師あり」型と呼ばれる手法であり、時間同期化され注釈が付与された音声データに基づいて事前に十分に訓練された4つの音声デコーダを用いる。2つ目は「教師なし」型と呼ばれる手法であり、特定言語に対して盲目的な音声音素分割を実施し、Mediaeval 2013およびMediaeval 2014データベースから言語情報を取り出す。さらに、検索性能全体への影響を考慮し、両アプローチにおいて、特定言語への音響モデル適応のための再訓練プロセスの有効性についても検証を行った。

ソースPDF