17日前

最新鋭のマルチストリーム自己注意機構を用いた拡張1次元畳み込みを用いた音声認識

Kyu J. Han, Ramon Prieto, Kaixing Wu, Tao Ma
最新鋭のマルチストリーム自己注意機構を用いた拡張1次元畳み込みを用いた音声認識
要約

自己注意(self-attention)は自然言語処理(NLP)における多くの下流タスクで大きな成功を収めており、これにより音声処理分野への自己注意機構の適用が検討されるようになった。しかし、自己注意機構を音声処理に適用する際には、入力音声フレーム間に強い相関が存在するため、その効果はまだ十分に発揮されているとは言い難い。本論文では、この課題を解決し、音声認識における自己注意機構の効果を高めるため、新たなニューラルネットワークアーキテクチャである「マルチストリーム自己注意(multi-stream self-attention)」を提案する。本モデルは、並列に配置された自己注意エンコーダのストリームから構成されており、各ストリームは、それぞれ固有の拡張率(dilation rate)を持つ1次元畳み込み層(1D convolution)と、それに続く自己注意層から成る。各ストリームにおける自己注意機構は、入力音声フレームの一つの解像度(resolution)にのみ注目するため、注目計算がより効率的に行える。その後、すべてのストリームの出力を連結し、線形投影によって最終的な埋め込み表現を生成する。提案するマルチストリーム自己注意エンコーダブロックを積層し、得られたラティスをニューラルネットワーク言語モデルで再評価することで、LibriSpeechコーパスのtest-cleanデータセットにおいて2.2%の単語誤り率(Word Error Rate)を達成した。これは、これまでに報告された同データセットにおける最高の数値である。

最新鋭のマルチストリーム自己注意機構を用いた拡張1次元畳み込みを用いた音声認識 | 最新論文 | HyperAI超神経