التعرف على الكلام من النهاية إلى النهاية مع خطوات الحساب التكيفية

في هذا البحث، نقدم خوارزمية الخطوات الحسابية المتكيفة (Adaptive Computation Steps - ACS)، والتي تمكن نماذج التعرف على الكلام من النهاية إلى النهاية من اتخاذ قرار ديناميكي حول عدد الإطارات التي يجب معالجتها للتنبؤ بخرج لغوي. يعتمد النموذج الذي يطبق خوارزمية ACS الإطار المكون من المُشفِّر والمُفكِّك، ولكن على عكس النماذج القائمة على الانتباه، فإنه ينتج محاذاة بشكل مستقل في جانب المُشفِّر باستخدام الارتباط بين الإطارات المجاورة. وبذلك يمكن إجراء التنبؤات فور استلام المعلومات الصوتية الكافية، مما يجعل النموذج قابلاً للتطبيق في الحالات المباشرة. بالإضافة إلى ذلك، تم إجراء تغيير صغير في مرحلة فك التشفير في إطار المُشفِّر والمُفكِّك، مما يسمح للتنبؤ باستغلال السياقات ثنائية الاتجاه. قمنا بالتحقق من خوارزمية ACS على مجموعة بيانات الكلام الصيني AIShell-1، حيث حققت نسبة خطأ حرف (CER) بنسبة 31.2% في الحالة المباشرة، مقارنة بنسبة 32.4% CER لنموذج القائم على الانتباه. لتقديم دليل كامل على مزايا خوارزمية ACS، أجريت تجارب غير مباشرة، وفيها حقق نموذجنا ACS نسبة CER بلغت 18.7%,تفوقًا على نظيره القائم على الانتباه الذي حقق نسبة CER بلغت 22.0%.