الاقتراب الحديث في التعرف على الكلام باستخدام الانتباه الذاتي متعدد التدفقات مع التحويلات التلافيفية ذات الأبعاد الواحدة الممتدة

لقد حققت الانتباه الذاتي نجاحًا كبيرًا في العديد من المهام التطبيقية في معالجة اللغة الطبيعية، مما أدى إلى استكشاف تطبيق الانتباه الذاتي على المشكلات الصوتية أيضًا. ومع ذلك، يبدو أن الفعالية الكاملة للانتباه الذاتي في التطبيقات الصوتية لم تُستَكمل بعد، نظرًا لصعوبة التعامل مع الإطارات الصوتية ذات الارتباط العالي في سياق الانتباه الذاتي. في هذا البحث، نقترح معمارية نموذج شبكة عصبية جديدة تُعرف بـ "الانتباه الذاتي متعدد التدفقات" لمعالجة هذه المشكلة، بهدف جعل آلية الانتباه الذاتي أكثر فعالية في التعرف على الصوت. تتكوّن المعمارية المقترحة من تدفقات متوازية من مُشَفِّرات الانتباه الذاتي، حيث تحتوي كل تدفق على طبقات من التحويلات التلافيفية ذات الأبعاد الواحدة (1D convolutions) ذات معاملات تمدد (dilated kernels) بقيم تمدد فريدة لكل تدفق، تليها طبقة انتباه ذاتي. يركز آلية الانتباه الذاتي في كل تدفق على تردد واحد فقط من إطارات الصوت المدخلة، مما يُحسّن كفاءة الحسابات الانتباهية. في مرحلة لاحقة، يتم دمج المخرجات من جميع التدفقات ثم تمريرها عبر تحويل خطي للحصول على التضمين النهائي. وباستخدام طبقات متعددة من مُشَفِّرات الانتباه الذاتي متعدد التدفقات، مع إعادة تقييم الشبكات الناتجة باستخدام نماذج لغوية عصبية، نحقّق معدل خطأ كلمة (Word Error Rate) قدره 2.2% على مجموعة بيانات التحقق النظيفة (test-clean) من مجموعة بيانات LibriSpeech، وهي أفضل نتيجة مُبلغ عنها حتى الآن على هذه المجموعة.