17日前

CTCトポロジーを用いたCRFベースの単段階音響モデル

{Zhijian Ou, Hongyu Xiang}
CTCトポロジーを用いたCRFベースの単段階音響モデル
要約

本稿では、接続主義的時系列分類(CTC)に着想を得た特殊な状態トポロジーを採用した、条件付き確率場(CRF)に基づく単段階(SS)音響モデルを提案する。これを短縮してCTC-CRFと呼ぶ。CTC-CRFは概念的に単純であり、下位のニューラルネットワークから生成された特徴量の上に、特別な状態トポロジーを持つCRF層を構築することで実現される。SS-LF-MMI(ラティスフリー最大相互情報量)と同様に、CTC-CRFはGMM-HMMの事前学習や木構造の構築を必要とせず、スクラッチからの学習(フラットスタート)が可能である。WSJ、Switchboard、Librispeechの各データセットにおいて評価実験を実施した。直接比較の結果、単純な双方向LSTMを用いたCTC-CRFモデルは、単音素(mono-phones)および単文字(mono-chars)の両設定において、すべてのベンチマークデータセットで強力なSS-LF-MMIを一貫して上回った。さらに、CTC-CRFはSS-LF-MMIに見られる一部の任意的な操作(ad-hoc operation)を回避できる点でも利点がある。