استشعار العبارات البارزة في الاسترجاع الكثيف: هل يمكن لاسترجاع كثيف أن يقلد استرجاع خفيف؟

على الرغم من شعبيتها الحديثة ومزاياها المعروفة، لا تزال نماذج الاسترجاع الكثيفة تتخلف عن الطرق المتباعدة مثل BM25 من حيث القدرة على مطابقة العبارات البارزة والكيانات النادرة في الاستعلام بشكل موثوق، وكذلك التعميم على بيانات خارج المجال. وقد اُدعي سابقًا أن هذا يُعد حدًا جوهريًا للنماذج الكثيفة. ونُفِّذ هذا الادعاء من خلال تقديم نموذج استرجاع يُعرف بـ "SPAR" (استرجاع يُدرك العبارات البارزة)، وهو نموذج كثيف يتمتع بقدرة المطابقة اللفظية لنموذج متباعد. نُظهِر أن نموذج لفظي كثيف Λ يمكن تدريبه لمحاكاة نموذج متباعد، وتم بناء SPAR عن طريق تزويد نموذج استرجاع كثيف قياسي بـ Λ. من الناحية التجريبية، أظهر SPAR أداءً متفوقًا في مجموعة متنوعة من المهام، بما في ذلك خمسة مجموعات بيانات للإجابة على الأسئلة، واسترجاع المقاطع من MS MARCO، بالإضافة إلى معايير EntityQuestions وBEIR لتقييم الأداء خارج المجال، متفوّقًا على أفضل النماذج الكثيفة والمباعدة المتوفرة حاليًا. يمكن الوصول إلى الكود والنماذج الخاصة بـ SPAR عبر الرابط التالي: https://github.com/facebookresearch/dpr-scale/tree/main/spar