HyperAIHyperAI
منذ 17 أيام

كونفورمر: تحويلة مُعززة بالتحويل التوافقي للتعرف على الصوت

Anmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang, Jiahui Yu, Wei Han, Shibo Wang, Zhengdong Zhang, Yonghui Wu, Ruoming Pang
كونفورمر: تحويلة مُعززة بالتحويل التوافقي للتعرف على الصوت
الملخص

في الآونة الأخيرة، أظهرت النماذج القائمة على مُحول Transformer وشبكات التعميم التلافيفي (CNN) نتائج واعدة في التعرف التلقائي على الكلام (ASR)، متفوقةً على الشبكات العصبية التكرارية (RNNs). تتميز نماذج Transformer بقدرتها العالية على التقاط التفاعلات العالمية القائمة على المحتوى، بينما تستغل شبكات CNN الخصائص المحلية بشكل فعّال. وفي هذا العمل، نحقق أفضل ما في كلا النموذجين من خلال دراسة كيفية دمج شبكات التعميم التلافيفي مع مُحولات Transformer لتمثيل التبعيات المحلية والعالمية لسلسلة الصوت بطريقة فعّالة من حيث عدد المعاملات. ولتحقيق ذلك، نقترح نموذجًا يُدعى "كونفورمر" (Conformer)، وهو مُحول مُعزز بالعمليات التلافيفية للاعتراف بالكلام. يتفوق نموذج Conformer بشكل ملحوظ على النماذج السابقة القائمة على Transformer وCNN، ويحقق دقةً من الدرجة الأولى. على معيار LibriSpeech الشهير، يحقق نموذجنا معدل خطأ كلام (WER) قدره 2.1%/4.3% دون استخدام نموذج لغوي، و2.9%/3.9% باستخدام نموذج لغوي خارجي على بيانات الاختبار (test/testother). كما نلاحظ أداءً تنافسيًا بـ 2.7%/6.3% باستخدام نموذج صغير يحتوي فقط على 10 ملايين معامل.

كونفورمر: تحويلة مُعززة بالتحويل التوافقي للتعرف على الصوت | أحدث الأوراق البحثية | HyperAI