HyperAIHyperAI
منذ 17 أيام

Conformer سريع مع انتباه متناسب خطيًا للتعرف الفعّال على الصوت

Dima Rekesh, Nithin Rao Koluguri, Samuel Kriman, Somshubra Majumdar, Vahid Noroozi, He Huang, Oleksii Hrinchuk, Krishna Puvvada, Ankur Kumar, Jagadeesh Balam, Boris Ginsburg
Conformer سريع مع انتباه متناسب خطيًا للتعرف الفعّال على الصوت
الملخص

أصبحت نماذج Conformer هي البنية المهيمنة ذات النهاية الواحدة للمهام المتعلقة معالجة الصوت. وبالهدف من تحسين بنية Conformer لتمكين التدريب والاستنتاج بكفاءة، قمنا بإعادة تصميم Conformer بدقة باستخدام مخطط جديد للتخفيض. وتم تسمية النموذج المقترح بـ Fast Conformer (FC)، وهو أسرع بـ 2.8 مرة من النموذج الأصلي Conformer، ويُدعم التوسع إلى بِلْيُونات المعاملات دون أي تغيير في البنية الأساسية، كما يحقق أداءً متفوقًا على مستوى الحد الأقصى من الدقة في معايير التعرف على الكلام التلقائي. ولتمكين تحويل الكلام الطويل حتى 11 ساعة، استبدلنا الانتباه العالمي بانتباه محدود السياق بعد التدريب، مع تحسين الدقة من خلال التخصيص الدقيق بإضافة رمز عالمي. وبما يُستخدم مع مشفر Transformer، يتفوق Fast Conformer على النموذج الأصلي Conformer من حيث الدقة والسرعة في مهام الترجمة الصوتية وفهم اللغة الشفهية.

Conformer سريع مع انتباه متناسب خطيًا للتعرف الفعّال على الصوت | أحدث الأوراق البحثية | HyperAI