17日前
lattice-free MMIを用いたエンドツーエンド音声認識
{Sanjeev Khudanpur, Daniel Povey, Hossein Sameti, Hossein Hadian}

要約
本稿では、隠れマルコフモデル(HMM)の文脈において、ラティスフリー最大相互情報量(LF-MMI)目的関数を用いた音響モデルのエンドツーエンド学習に関する研究を報告する。エンドツーエンド学習とは、事前に学習されたモデルや強制アライメント、状態結合意思決定木の構築を一切用いずに、単一の深層ニューラルネットワーク(DNN)を1段階でフラットスタートで学習することを意味する。本研究では、木構造を用いずに文脈依存モデル化を実現するため、フルバイフォン(full biphones)を採用し、エンドツーエンド型のLF-MMIアプローチが、有名な大語彙タスクにおいて従来のLF-MMIと同等の性能を達成できることを示した。また、文字ベースかつ語彙非依存な設定における他のエンドツーエンド手法(例:CTC)と比較し、さまざまな大語彙タスクにおいて、ワードエラーレート(WER)を5~25%相対的に低減する結果を得た。さらに、モデルサイズは著しく小さくても高い性能を達成できることを確認した。