نموذج حساس للنطاق ومُنتَبِه للنتائج لفهم اللغة الشفهية متعددة النوايا

فهم اللغة الشفهية متعددة النوايا (SLU)، وهي سيناريو جديد وأكثر تعقيدًا لفهم اللغة الشفهية، تجذب اهتمامًا متزايدًا. على عكس فهم اللغة الشفهية التقليدي، فإن كل نية في هذا السيناريو لها نطاق محدد. وتعمل المعلومات الدلالية التي تقع خارج هذا النطاق على إعاقة التنبؤ، مما يزيد بشكل كبير من صعوبة تحديد النية. وبشكل أكثر خطورة، فإن توجيه ملء الحقول (slot filling) باستخدام علامات النية غير الدقيقة يؤدي إلى مشكلة انتشار الأخطاء، ما ينتج عنه أداء عام غير مرضٍ. لحل هذه التحديات، نقترح في هذه الورقة شبكة انتباه ناتجة عن النتائج حساسة للنطاق (SSRAN) مبنية على معمارية Transformer، وتشمل مُعرّف النطاق (SR) وشبكة انتباه النتائج (RAN). يُخصّص مُعرّف النطاق معلومات النطاق لكل رمز (token)، مما يقلل من التشتت الناتج عن الرموز الواقعة خارج النطاق. أما شبكة انتباه النتائج، فتُستخدم بفعالية التفاعل ثنائي الاتجاه بين نتائج ملء الحقول وتحديد النية، مما يخفف من مشكلة انتشار الأخطاء. تُظهر التجارب على مجموعتي بيانات عامتين أن نموذجنا يحسن بشكل ملحوظ من أداء فهم اللغة الشفهية (بمعدل 5.4% و2.1% في الدقة الشاملة) مقارنةً بالأساسية المتقدمة في المجال.