استرجاع المعلومات الكثيفة غير المراقب باستخدام التعلم التبايني

في الآونة الأخيرة، شهدت أنظمة استرجاع المعلومات ظهور نماذج الاسترجاع الكثيفة (dense retrievers) التي تعتمد على الشبكات العصبية كبدائل للطرق التقليدية الرقيقة (sparse) القائمة على تكرار المصطلحات. وقد حققت هذه النماذج نتائج متميزة على مجموعات البيانات والمهام التي تتوفر فيها مجموعات تدريب كبيرة. ومع ذلك، فإنها لا تُعدّ فعّالة عند نقلها إلى تطبيقات جديدة دون بيانات تدريب، وتُتفوّق عليها الطرق غير المُشرَّفة القائمة على تكرار المصطلحات مثل BM25. في هذه الدراسة، نستكشف حدود التعلم المُقارِن (contrastive learning) كوسيلة لتدريب نماذج استرجاع كثيفة غير مُشرَّفة، ونُظهر أن هذا النهج يؤدي إلى أداء قوي في مختلف سياقات الاسترجاع. وعلى معيار BEIR، تتفوّق نموذجنا غير المُشرَّف على BM25 في 11 من أصل 15 مجموعة بيانات من حيث مقياس الاسترجاع (Recall@100). وعند استخدامه كمرحلة تدريب مسبق قبل التخصيص (fine-tuning)، سواء على آلاف قليلة من الأمثلة داخل المجال أو على مجموعة البيانات الكبيرة MS~MARCO، فإن النموذج المُدرّب باستخدام التعلم المُقارِن يُحقق تحسينات على معيار BEIR. وأخيرًا، نقيّم منهجنا في مجال الاسترجاع متعدد اللغات، حيث تكون بيانات التدريب أكثر ندرة من حالة اللغة الإنجليزية، ونُظهر أن منهجنا يُحقق أداءً قويًا وغير مُشرَّف. كما تُظهر نماذجنا قدرة قوية على الانتقال بين اللغات عند تدريبها فقط على بيانات إنجليزية مُشرَّفة ثم تقييمها على لغات ذات موارد محدودة مثل السواحيلية. ونُظهر أن نماذجنا غير المُشرَّفة قادرة على تنفيذ استرجاع متعدد اللغات بين كتابات مختلفة، مثل استرجاع وثائق إنجليزية من استعلامات عربية، وهو ما لا يمكن تحقيقه باستخدام الطرق التقليدية القائمة على مطابقة المصطلحات.