HyperAIHyperAI

Command Palette

Search for a command to run...

クォータニオン畳み込みニューラルネットワークを用いたエンドツーエンド自動音声認識

Titouan Parcollet Ying Zhang Mohamed Morchid Chiheb Trabelsi Georges Linares Renato De Mori Yoshua Bengio

概要

最近、接続主義的な時間的分類(Connectionist Temporal Classification: CTC)モデルと再帰型(Recurrent Neural Network: RNN)または畳み込みニューラルネットワーク(Convolutional Neural Network: CNN)を組み合わせることで、音声認識システムのエンドツーエンド学習が容易になりました。しかし、実数モデルでは、メルフィルタバンクエネルギーやそれから得られるケプストラム係数などの時間フレーム成分と、それらの一次および二次微分が個々の要素として処理される一方で、これらの成分を複合体として処理することが自然な代替案となります。本稿では、これらの要素を四元数の形にグループ化し、確立された四元数代数を使用してこれらの四元数を処理することを提案します。四元数と四元数ニューラルネットワークは、多次元入力を単一のエンティティとして処理し、内部依存関係を符号化し、実数モデルよりも少ない学習パラメータで多くのタスクを解決する効率性を示しています。本論文では、CTCモデルとともにシーケンス間マッピングに使用するために、複数の特徴量ビューを四元数値畳み込みニューラルネットワーク(Quaternion Convolutional Neural Network: QCNN)に統合することを提案しています。TIMITコーパスを使用した音素認識実験において、シンプルなQCNNを使用することで有望な結果が報告されています。具体的には、QCNNは実数値CNNに基づく競合モデルよりも少ない学習パラメータで低い音素誤り率(Phoneme Error Rate: PER)を得ています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
クォータニオン畳み込みニューラルネットワークを用いたエンドツーエンド自動音声認識 | 記事 | HyperAI超神経