التعلم المقابل السلبي القريب للجيران لاسترجاع النص الكثيف

إن إجراء استرجاع النصوص في فضاء تمثيلي كثيف متعلم يمتلك العديد من المزايا المثيرة مقارنة بالاسترجاع النادر. ومع ذلك، فإن كفاءة الاسترجاع الكثيف (DR) تتطلب غالبًا دمجها مع الاسترجاع النادر. في هذه الورقة، نحدد أن العائق الرئيسي يكمن في آليات التدريب، حيث لا تمثل الأمثلة السلبية المستخدمة في التدريب الوثائق غير ذات الصلة أثناء الاختبار. تقدم هذه الورقة طريقة تدريب تُسمى تقدير التباين السلبي التقريبي القريب (ANCE)، التي تُنشئ الأمثلة السلبية من فهرس الجيران الأقرب التقريبي (ANN) للمجموعة النصية، ويتم تحديثه بشكل متوازٍ مع عملية التعلم لاختيار أمثلة تدريبية سلبية أكثر واقعية. وبهذا، يتم حل الفجوة الجوهرية بين توزيع البيانات المستخدمة في التدريب والاختبار في الاسترجاع الكثيف. في تجاربنا، يعزز ANCE أداء نموذج BERT-Siamese للاسترجاع الكثيف ليتفوق على جميع النماذج التنافسية للاسترجاع الكثيف والنادر. كما يقترب تقريبًا من دقة الاسترجاع النادر مع إعادة ترتيب BERT باستخدام الجداء القياسي في فضاء التمثيل المُدرَّب بواسطة ANCE، مع توفير تسريع يصل إلى 100 مرة تقريبًا.