2ヶ月前

クォータニオン畳み込みニューラルネットワークを用いたエンドツーエンド自動音声認識

Titouan Parcollet; Ying Zhang; Mohamed Morchid; Chiheb Trabelsi; Georges Linarès; Renato De Mori; Yoshua Bengio

要約

最近、接続主義的な時間的分類（Connectionist Temporal Classification: CTC）モデルと再帰型（Recurrent Neural Network: RNN）または畳み込みニューラルネットワーク（Convolutional Neural Network: CNN）を組み合わせることで、音声認識システムのエンドツーエンド学習が容易になりました。しかし、実数モデルでは、メルフィルタバンクエネルギーやそれから得られるケプストラム係数などの時間フレーム成分と、それらの一次および二次微分が個々の要素として処理される一方で、これらの成分を複合体として処理することが自然な代替案となります。本稿では、これらの要素を四元数の形にグループ化し、確立された四元数代数を使用してこれらの四元数を処理することを提案します。四元数と四元数ニューラルネットワークは、多次元入力を単一のエンティティとして処理し、内部依存関係を符号化し、実数モデルよりも少ない学習パラメータで多くのタスクを解決する効率性を示しています。本論文では、CTCモデルとともにシーケンス間マッピングに使用するために、複数の特徴量ビューを四元数値畳み込みニューラルネットワーク（Quaternion Convolutional Neural Network: QCNN）に統合することを提案しています。TIMITコーパスを使用した音素認識実験において、シンプルなQCNNを使用することで有望な結果が報告されています。具体的には、QCNNは実数値CNNに基づく競合モデルよりも少ない学習パラメータで低い音素誤り率（Phoneme Error Rate: PER）を得ています。