HyperAIHyperAI

Command Palette

Search for a command to run...

كونفورمر: تحويلة مُعززة بالتحويل التوافقي للتعرف على الصوت

الملخص

في الآونة الأخيرة، أظهرت النماذج القائمة على مُحول Transformer وشبكات التعميم التلافيفي (CNN) نتائج واعدة في التعرف التلقائي على الكلام (ASR)، متفوقةً على الشبكات العصبية التكرارية (RNNs). تتميز نماذج Transformer بقدرتها العالية على التقاط التفاعلات العالمية القائمة على المحتوى، بينما تستغل شبكات CNN الخصائص المحلية بشكل فعّال. وفي هذا العمل، نحقق أفضل ما في كلا النموذجين من خلال دراسة كيفية دمج شبكات التعميم التلافيفي مع مُحولات Transformer لتمثيل التبعيات المحلية والعالمية لسلسلة الصوت بطريقة فعّالة من حيث عدد المعاملات. ولتحقيق ذلك، نقترح نموذجًا يُدعى "كونفورمر" (Conformer)، وهو مُحول مُعزز بالعمليات التلافيفية للاعتراف بالكلام. يتفوق نموذج Conformer بشكل ملحوظ على النماذج السابقة القائمة على Transformer وCNN، ويحقق دقةً من الدرجة الأولى. على معيار LibriSpeech الشهير، يحقق نموذجنا معدل خطأ كلام (WER) قدره 2.1%/4.3% دون استخدام نموذج لغوي، و2.9%/3.9% باستخدام نموذج لغوي خارجي على بيانات الاختبار (test/testother). كما نلاحظ أداءً تنافسيًا بـ 2.7%/6.3% باستخدام نموذج صغير يحتوي فقط على 10 ملايين معامل.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
كونفورمر: تحويلة مُعززة بالتحويل التوافقي للتعرف على الصوت | مستندات | HyperAI