التقسيم التسلسلي للنوايا والتصنيف والتحديد المكاني للنُّقَطِ في النموذج النهاية-إلى-النهاية

تتأثر تفاعلية الإنسان مع الحاسوب (HCI) بشكل كبير بتأخير الاستجابات الناتجة عن أنظمة المحادثة الصوتية. ولهذا السبب، تم مؤخرًا اقتراح حلول متكاملة من الطرف إلى الطرف (e2e) لفهم اللغة الصوتية (SLU) لتقليل زمن التأخير. تسمح هذه النهج باستخراج المعلومات الدلالية مباشرة من الإشارة الصوتية، وبالتالي تجنب الحاجة إلى نص مكتوب مستمد من نظام التعرف التلقائي على الكلام (ASR). في هذا البحث، نقترح بنية مدمجة لحل e2e لفهم اللغة الصوتية مُصممة لسيناريوهات التدفق المستمر، حيث يتم معالجة كتل متتالية من الإشارة الصوتية بشكل مستمر للتنبؤ بالنية وقيم الحقول (slot values). تعتمد نموذجنا على شبكة عصبية متعددة الأبعاد (3D-CNN) وشبكة عصبية ذات ذاكرة طويلة قصيرة (LSTM) ذات اتجاه واحد. ونقارن بين أداء خمسة خسائر خالية من التماثل: طريقة التصنيف الزمني الاتصالي (CTC) ونسخة معدلة منها تُعرف بـ "التحديد الزمني الاتصالي" (CTL). تُنجز هذه الأخيرة ليس فقط التصنيف، بل أيضًا تحديد مواقع الأحداث الصوتية المتسلسلة. تم تقييم الحل المقترح على مجموعة بيانات Fluent Speech Command، وأظهرت النتائج قدرة نموذجنا على معالجة الإشارة الصوتية الواردة، حيث بلغت الدقة 98.97٪ لـ CTC و98.78٪ لـ CTL في تصنيف العلامة الواحدة، وبلغت 95.69٪ لـ CTC و95.28٪ لـ CTL في التنبؤ بعلامتين.