كولبيرت فايرتو: استرجاع فعّال وكفؤ من خلال التفاعل المتأخر الخفيف

أصبح استرجاع المعلومات العصبية (IR) قد تقدمًا كبيرًا في مجال البحث والمهام اللغوية الأخرى التي تعتمد على المعرفة. في حين أن العديد من الطرق العصبية لاسترجاع المعلومات تُشفِّر الاستفسارات والمستندات إلى تمثيلات متجهة واحدة، فإن النماذج التي تُنفَّذ تفاعلًا متأخرًا تُنتج تمثيلات متعددة المتجهات على مستوى كل رمز (token) وتُفكِّك نموذج التماسك إلى عمليات حسابية قابلة للتوسع على مستوى الرموز. وقد أُظهر أن هذا التفكيك يجعل التفاعل المتأخر أكثر فعالية، لكنه يُضاعف حجم المساحة المطلوبة للنماذج بعامل تربيع. في هذه الدراسة، نقدِّم ColBERTv2، وهو مُسترجع يدمج آلية ضغط متكررة (residual compression) قوية مع استراتيجية تدريس خالية من الضوضاء (denoised supervision) لتحسين جودة النموذج وحجم المساحة المطلوبة في آنٍ واحد للتفاعل المتأخر. وقد قُمنا بتقييم ColBERTv2 عبر مجموعة واسعة من المعايير، حيث أثبت تفوقًا على أحدث الأداء (state-of-the-art) داخل وخارج نطاق التدريب، مع تقليل حجم المساحة المطلوبة للنماذج التي تعتمد على التفاعل المتأخر بنسبة 6 إلى 10 أضعاف.