17日前
ブロック拡張Transformerを用いた中国語音声認識の改善
Xiaoming Ren, Huifeng Zhu, Liuwei Wei, Minghui Wu, Jie Hao

要約
最近、畳み込みを組み込んだトランスフォーマー(Conformer)は、自動音声認識(ASR)において、従来の最高性能を記録したトランスフォーマー・トランシューダーを上回る有望な結果を示している。本研究では、エンコーダおよびデコーダの各ブロックが出力する情報が完全に包含されているわけではないと考え、すなわち、各ブロックの出力情報は補完的な性質を有している可能性があると仮定する。そこで、パラメータ効率的な方法で各ブロック間の補完的情報を活用する手法を検討し、より堅牢な性能向上が期待される。これに基づき、音声認識用に新たなモデル「Blockformer」を提案する。本研究では2種類のブロックアンサンブル手法を実装した:基本的なブロック出力の重み付き和(Base-WSBO)と、 squeeze-and-excitationモジュールを用いたブロック出力の重み付き和(SE-WSBO)。実験の結果、BlockformerはAISHELL-1データセットにおいて、言語モデルを用いない状態でCER(文字誤字率)4.29%、外部言語モデルを用いた状態で4.05%を達成し、現在の最先端のConformerベースモデルを顕著に上回ることを確認した。