HopRetriever: استرجاع الهوب عبر ويكيبيديا للإجابة على الأسئلة المعقدة

جمع الأدلة الداعمة من مجموعات ضخمة من النصوص (مثل ويكيبيديا) يُعد تحديًا كبيرًا في مجال الإجابة على الأسئلة في المجال المفتوح (QA). وبخاصة في حالة الإجابة على الأسئلة المفتوحة متعددة الخطوات، يتطلب الأمر جمع قطع أدلة متناثرة معًا لدعم استخلاص الإجابة. في هذه الورقة، نقترح هدف استرجاع جديد يُسمى "الخطوة" (hop) لاستخراج الأدلة الاستدلالية المخفية من ويكيبيديا لحل الأسئلة المعقدة. بشكل محدد، نعرّف "الخطوة" في هذه الورقة على أنها مزيج من رابط تشعبي (hyperlink) والمستند المرتبط به (الرابط الخارجي). يتم تمثيل الرابط التشعبي كمُدمج ذكر (mention embedding) يُمثّل المعرفة الهيكلية حول كيفية ذكر الكيان المرتبط بالرابط الخارجي في السياق النصي، بينما يتم تمثيل المستند الخارجي كمُدمج مستند (document embedding) يمثّل المعرفة غير الهيكلية المحتواة فيه. وبهذا التمثيل، نُنشئ نموذجًا يُسمى HopRetriever، الذي يقوم باسترجاع "الخطوات" عبر ويكيبيديا للإجابة على الأسئلة المعقدة. أظهرت التجارب على مجموعة بيانات HotpotQA أن نموذج HopRetriever يتفوّق بشكل كبير على الطرق السابقة في استرجاع الأدلة المنشورة. علاوة على ذلك، يُنتج نهجنا تفسيرات قابلة للقياس لعملية جمع الأدلة.