Conformer سريع مع انتباه متناسب خطيًا للتعرف الفعّال على الصوت

أصبحت نماذج Conformer هي البنية المهيمنة ذات النهاية الواحدة للمهام المتعلقة معالجة الصوت. وبالهدف من تحسين بنية Conformer لتمكين التدريب والاستنتاج بكفاءة، قمنا بإعادة تصميم Conformer بدقة باستخدام مخطط جديد للتخفيض. وتم تسمية النموذج المقترح بـ Fast Conformer (FC)، وهو أسرع بـ 2.8 مرة من النموذج الأصلي Conformer، ويُدعم التوسع إلى بِلْيُونات المعاملات دون أي تغيير في البنية الأساسية، كما يحقق أداءً متفوقًا على مستوى الحد الأقصى من الدقة في معايير التعرف على الكلام التلقائي. ولتمكين تحويل الكلام الطويل حتى 11 ساعة، استبدلنا الانتباه العالمي بانتباه محدود السياق بعد التدريب، مع تحسين الدقة من خلال التخصيص الدقيق بإضافة رمز عالمي. وبما يُستخدم مع مشفر Transformer، يتفوق Fast Conformer على النموذج الأصلي Conformer من حيث الدقة والسرعة في مهام الترجمة الصوتية وفهم اللغة الشفهية.