SpeechBERT: نموذج لغوي مُدرَّب بشكل مشترك على الصوت والنص لاستجابة الأسئلة الشفهية من البداية إلى النهاية

بالرغم من الاستكشافات الأخيرة التي شملت نماذج متكاملة من الطرف إلى الطرف لمهام فهم اللغة الشفهية، فإن هذا البحث يُعدّ على الأرجح أول محاولة معروفة تتحدى المهمة الصعبة للغاية المتمثلة في الإجابة الشفهية النهائية (SQA). مستوحاة من نجاح نموذج BERT في مهام معالجة النصوص المختلفة، نقترح في هذا العمل نموذج SpeechBERT الذي يتعلم الصوت والنص معًا. وقد تفوق هذا النموذج على النهج التقليدي المتمثل في تسلسل نظام التعرف على الكلام (ASR) مع نموذج لحل الأسئلة النصية (TQA) على مجموعات بيانات تحتوي على أخطاء في التعرف على الكلام داخل فقرات الإجابة، لأن النموذج المتكامل من الطرف إلى الطرف أُظهر أنه قادر على استخراج المعلومات من البيانات الصوتية قبل حدوث أخطاء التعرف على الكلام. كما تم تحقيق أداء أفضل من خلال دمج النموذج المتكامل المُقترح مع البنية التسلسلية. بالإضافة إلى الإمكانات الكبيرة لـ SQA المتكاملة من الطرف إلى الطرف، يمكن اعتبار نموذج SpeechBERT مفيدًا في العديد من المهام الأخرى لفهم اللغة الشفهية، تمامًا كما يُستخدم نموذج BERT في العديد من مهام معالجة النصوص.