MMSpeech:音声認識を目的としたマルチモーダル・マルチタスクエンコーダデコーダ事前学習

本稿では、中国語音声認識(ASR)向けに、ラベルなし音声データとテキストデータを活用する新しいマルチモーダル・マルチタスクエンコーダ-デコーダ型事前学習フレームワーク(MMSpeech)を提案する。音声とテキストの同時事前学習において主な課題となるのは、音声とテキストのモダリティ間の顕著な違い、特に中国語音声とテキストの間の違いである。英語や他のアルファベット表記言語とは異なり、中国語は表意文字体系を採用しており、文字と音声の間にはきめ細かな対応関係が存在しない。このため、中国語音声とテキスト間のモダリティ不変な情報を捉えるために、事前学習に音素モダリティを導入することを提案する。具体的には、音声およびテキストデータを用いた、5つの自己教師ありおよび教師ありタスクを含むマルチタスク学習フレームワークを採用する。エンドツーエンドの事前学習において、ラベルなし音声およびテキストデータを用いて自己教師ありの音声→仮コード(S2C)および音素→テキスト(P2T)タスクを導入し、音声-仮コードペアおよび音素-テキストペアを教師ありの音声-テキストペアの補完として利用する。また、エンコーダがより優れた音声表現を学習できるように、自己教師ありのマスク音声予測(MSP)および教師ありの音素予測(PP)タスクを導入し、音声を音素にマッピングする能力を学習させる。さらに、下流タスクである音声→テキスト(S2T)の教師ありタスクを、事前学習プロセスに直接組み込むことで、事前学習性能のさらなる向上を図り、微調整(fine-tuning)を行わなくても優れた認識性能を達成できるようにしている。AISHELL-1データセットにおける実験結果から、本手法が最先端の性能を達成し、他の事前学習手法と比較して40%以上の相対的改善が得られたことが確認された。