要約
発音特徴量および音韻記述は、音声関連タスクにおいて重要な役割を果たしています。これらのタスクには、コンピュータ支援発音練習、テキストから音声への変換(Text-to-Speech, TTS)、音声生成メカニズムの研究、低リソース言語の音声認識などが含まれます。近年、エンドツーエンドアプローチが音声関連タスクで大きな注目を集めています。本研究では、Listen, Attend and Spell (LAS) \cite{Chan-LAS2016} アーキテクチャを小さな訓練データセット(例:TIMIT \cite{TIMIT-1992})上の電話素認識に適用します。また、新たなデコーディング技術を導入し、注意モデルを使用して発音部位と発音方法検出器をエンドツーエンドで学習できるようにしました。さらに、マルチタスク学習設定における電話素認識と発音特徴量検出の同時処理についても考察します。