الإجابة على الأسئلة التفاعلية الشفهية من الطرف إلى الطرف: المهمة، والبيانات النموذجية، والنموذج

في مهام الإجابة على الأسئلة الشفهية، تم تصميم الأنظمة لتقديم إجابات تُستمد من عبارات نصية متتالية ضمن نصوص التسجيلات الصوتية ذات الصلة. ومع ذلك، فإن الطريقة الأكثر طبيعية التي يُستخدم بها البشر للبحث عن معرفتهم أو اختبارها هي من خلال المحادثات البشرية. ولذلك، نقترح مهمة جديدة تُسمى "الإجابة على الأسئلة الحوارية الشفهية" (SCQA)، والتي تهدف إلى تمكين الأنظمة من نمذجة تدفقات الحوار المعقدة بناءً على الوثائق الصوتية. وفي هذه المهمة، يكون الهدف الرئيسي هو بناء نظام قادر على التعامل مع الأسئلة الحوارية المستمدة من تسجيلات صوتية، واستكشاف إمكانية توفير مزيد من المؤشرات من مختلف الوسائط في عمليات جمع المعلومات. ولتحقيق ذلك، بدلًا من الاعتماد المباشر على النصوص المكتوبة التي تُولَد تلقائيًا وتحتوي على بيانات مُشوشة بشدة، نقترح منهجية جديدة موحدة لاستخلاص البيانات تُدعى DDNet، والتي تُعد فعّالة في استيعاب المعلومات عبر الوسائط المختلفة، بهدف تحقيق تمثيلات دقيقة جدًا للوسائط الصوتية واللغوية. علاوةً على ذلك، نقترح آلية بسيطة وحديثة تُسمى "الانتباه المزدوج" (Dual Attention)، التي تشجع على تحسين التوافق بين الصوت والنص، مما يُسهّل عملية نقل المعرفة. ولتقييم قدرة أنظمة SCQA على التفاعل بأسلوب حواري، قمنا ببناء مجموعة بيانات تُسمى "Spoken-CoQA" تتضمن أكثر من 40 ألف زوج من الأسئلة والإجابات المستمدة من 4000 محادثة. وقد أظهرت النتائج أن أداء أحدث الطرق المتطورة ينخفض بشكل كبير على مجموعتنا، مما يُبرز الحاجة الملحة لدمج المعلومات عبر الوسائط المختلفة. وتوحي النتائج التجريبية بأن الطريقة المقترحة تحقق أداءً متفوقًا في مهام الإجابة على الأسئلة الحوارية الشفهية.