عوائق التقدم في الإجابة على الأسئلة الطويلة

تتمثل مهمة الإجابة على الأسئلة الطويلة الشكل (LFQA) في استرجاع المستندات ذات الصلة بسؤال معين واستخدامها لإنتاج إجابة على شكل فقرة. وعلى الرغم من الطرح الأخير لعدة نماذج للتعامل مع هذه المهمة، نُظهر في هذه الورقة أن صيغة المهمة تطرح تحديات جوهرية تتعلق بالتقييم وإنشاء المجموعات البيانات، والتي تمنع حاليًا التقدم الحقيقي في النمذجة. لتقديم توضيح لهذه التحديات، نصمم أولًا نظامًا جديدًا يعتمد على الانتباه النادر (sparse attention) وتعلم الاسترجاع التبايني (contrastive retriever learning) لتحقيق أداءً متميزًا على مجموعة بيانات ELI5 الخاصة بـ LFQA. وعلى الرغم من تصدر نظامنا للقائمة العامة (public leaderboard)، فإن التحليل التفصيلي يكشف عن اتجاهات مقلقة متعددة: (1) أن الإجابات التي يُنتجها النظام لا تكون فعلاً مبنية على المستندات التي يسترجعها؛ (2) أن مجموعة بيانات ELI5 تحتوي على تداخل كبير بين البيانات التدريبية والتحقق، حيث تظهر على الأقل 81% من الأسئلة في مجموعة التحقق بشكل مُعاد صياغته في مجموعة التدريب؛ (3) أن مقياس ROUGE-L ليس مؤشرًا مفيدًا لجودة الإجابات المُولَّدة، ويمكن التلاعب به بسهولة؛ (4) وأن التقييمات البشرية المستخدمة في مهام إنشاء النصوص الأخرى ليست موثوقة في سياق LFQA. ونقدّم اقتراحات لمعالجة كل من هذه المشكلات، نأمل أن تسهم في تحسين جودة الأبحاث المتعلقة بـ LFQA وتحقيق تقدم حقيقي في المستقبل.