من إعادة ترتيب العصبونية إلى الترتيب العصبوني: تعلّم تمثيل نادر للفهرسة العكسية

يُحدث توافر كميات هائلة من البيانات وقدرات حوسبة قوية، ما يمكّن من تطبيق نماذج عصبية قائمة على البيانات بشكل فعّال، أثراً كبيراً في مجالات بحوث التعلم الآلي واسترجاع المعلومات، لكن هذه النماذج تعاني من مشكلة أساسية تتعلق بالكفاءة. تُنفذ النماذج العصبية الحالية حالياً كنماذج تصنيف متعددة المراحل: وبسبب اعتبارات الكفاءة، يُستخدم النموذج العصبي فقط لإعادة تصنيف المستندات ذات التصنيف العالي التي يسترجعها مُصنِّف أولي فعّال استجابةً لاستعلام معين. ونتيجةً لتعلم النماذج العصبية تمثيلات كثيفة (Dense Representations)، فإن كل مصطلح في الاستعلام يتطابق تقريباً مع كل مصطلح في المستند، مما يجعل تصنيف المجموعة الكاملة غير فعّال أو حتى غير قابل للتحقيق. ويؤدي الاعتماد على مُصنِّف المرحلة الأولى إلى مشكلتين مزدوجتين: الأولى، أن التفاعل والتأثيرات التجميعية بين المراحل غير مفهومة جيداً؛ والثانية، أن مُصنِّف المرحلة الأولى يعمل كـ"حارس مدخل" أو مرشح، ما يحول دون استغلال القدرة الحقيقية للنماذج العصبية في اكتشاف مستندات ذات صلة جديدة.في هذا العمل، نقترح نموذجاً عصبياً مستقلاً للتصنيف (SNRM) من خلال إدخال خاصية الندرة (Sparsity) لتعلم تمثيل خفي نادر لكل استعلام ومستند. يُمكّن هذا التمثيل من التقاط العلاقة الدلالية بين الاستعلام والمستندات، مع الحفاظ على درجة كافية من الندرة تتيح إنشاء فهرس عكسي (Inverted Index) للمجموعة الكاملة. ونُمَثِّل ندرة النموذج بمعاملات قابلة للضبط، مما يُنتج نموذج استرجاع كفوء كنماذج الاسترجاع التقليدية القائمة على المصطلحات. يحقق نموذجنا كفاءة دون التضحية بالفعالية: فهو لا يفوق فقط النماذج القائمة على مطابقة المصطلحات الحالية، بل يُظهر أداءً مماثلاً للنماذج العصبية الحديثة التي تعتمد على إعادة التصنيف (Re-ranking) مع تمثيلات كثيفة. كما يمكن للنموذج الاستفادة من التغذية المرتدة الافتراضية (Pseudo-Relevance Feedback) لتحقيق تحسينات إضافية. وبشكل عام، تُظهر نتائجنا أهمية خاصية الندرة في النماذج العصبية لاسترجاع المعلومات (NeuralIR)، وتُقدّم رؤى جديدة حول إمكانية تقطيع التمثيلات الكثيفة بكفاءة، مما يكشف عن ملامح دلالية أساسية وتوزيعاتها.