تقليل الأبعاد لاسترجاع كثيف فعّال من خلال مُشفّر تلقائي شرطي

تحوّل المُسترجعات الكثيفة الاستفسارات والمستندات وتمثّلها في فضاء تضمين (embedding space) باستخدام نماذج لغوية مُدرّبة مسبقًا. تتطلب هذه التضمينات أبعادًا عالية لتناسب إشارات التدريب وضمان فعالية استرجاع المعلومات في المُسترجعات الكثيفة. ومع ذلك، فإن هذه التضمينات عالية الأبعاد تؤدي إلى زيادة في حجم التخزين الفهرسي وارتفاع زمن الاستجابة. لخفض أبعاد التضمين في الاسترجاع الكثيف، تُقدّم هذه الورقة نموذجًا يُسمّى المُشَفِّر التلقائي الشرطي (ConAE) لضغط التضمينات عالية الأبعاد مع الحفاظ على التوزيع نفسه للتضمينات، وتحسين قدرة استرجاع ميزات الترتيب. تُظهر تجاربنا أن ConAE فعّال في ضغط التضمينات، حيث يحقق أداءً مماثلًا في الترتيب مقارنةً بنموذج المُعلّم (teacher model)، ويجعل نظام الاسترجاع أكثر كفاءة. كما تُشير تحليلاتنا الإضافية إلى أن ConAE يمكنه تقليل التكرار في التضمينات الخاصة بالاسترجاع الكثيف باستخدام طبقة خطية واحدة فقط. جميع الشيفرات البرمجية المتعلقة بهذه الدراسة متاحة على الرابط التالي: https://github.com/NEUIR/ConAE.