HyperAIHyperAI
منذ 2 أشهر

شبكات النورونات التلافيفية للقوaternion للاعتراف الصوتي الآلي من البداية إلى النهاية

Titouan Parcollet; Ying Zhang; Mohamed Morchid; Chiheb Trabelsi; Georges Linarès; Renato De Mori; Yoshua Bengio
شبكات النورونات التلافيفية للقوaternion للاعتراف الصوتي الآلي من البداية إلى النهاية
الملخص

في الآونة الأخيرة، أصبح من الأسهل تدريب أنظمة التعرف على الكلام بطريقة شاملة من البداية إلى النهاية بفضل نموذج التصنيف الزمني المتصل (CTC) المدمج مع الشبكات العصبية المتكررة (RNN) أو الشبكات العصبية المتشابكة (CNN). ومع ذلك، في النماذج ذات القيم الحقيقية، يتم معالجة مكونات الإطارات الزمنية مثل طاقات مرشح الميل ومعاملات السبيكتروم المستخرجة منها، بالإضافة إلى مشتقاتها الأولى والثانية، كعناصر منفصلة، بينما البديل الطبيعي هو معالجة هذه المكونات ككيانات مركبة. نقترح جمع هذه العناصر في شكل أعداد كوaternionية ومعالجة هذه الأعداد باستخدام الجبر الكوquaternionي المعروف. لقد أثبتت الأعداد الكوquaternionية والشبكات العصبية الكوquaternionية فعاليتها في معالجة المدخلات متعددة الأبعاد ككيانات واحدة، ترميز الاعتمادات الداخلية، وحل العديد من المهام باستخدام عدد أقل من 매علميات التعلم مقارنة بالنماذج ذات القيم الحقيقية. يقترح هذا البحث دمج وجهات النظر المتعددة للمميزات في شبكة عصبية متشابكة ذات قيم كوquaternionية (QCNN)، لاستخدامها في رسم الخرائط من تسلسل إلى تسلسل مع نموذج CTC. تم الإبلاغ عن نتائج واعدة باستخدام شبكات QCNN البسيطة في تجارب التعرف على الفونمات مع مجموعة بيانات TIMIT. وبشكل أكثر دقة، تحصل شبكات QCNN على معدل خطأ فونمي (PER) أقل باستخدام عدد أقل من متغيرات التعلم مقارنة بنموذج تنافسي يستند إلى شبكات CNN ذات القيم الحقيقية.

شبكات النورونات التلافيفية للقوaternion للاعتراف الصوتي الآلي من البداية إلى النهاية | أحدث الأوراق البحثية | HyperAI