استرجاع الصور على مستوى المثيل باستخدام محولات إعادة الترتيب

استرجاع الصور على مستوى المُثَلَّة (Instance-level image retrieval) هو مهمة البحث في قاعدة بيانات كبيرة عن صور تتطابق مع كائن موجود في صورة استعلام. لمعالجة هذه المهمة، تعتمد الأنظمة عادةً على خطوة استرجاع تستخدم وصفات صورة عامة، تليها خطوة لاحقة تقوم بتحسينات محددة حسب المجال أو إعادة ترتيب النتائج باستخدام عمليات مثل التحقق الهندسي المستند إلى الميزات المحلية. في هذه الدراسة، نقترح نموذجًا عامًا يُسمى "مُعدِّلات الترتيب المُعاد (Reranking Transformers - RRTs)"، والذي يدمج الميزات المحلية والعالمية لإعادة ترتيب الصور المتوافقة بطريقة مُراقبة، وبالتالي استبدال العملية المكلفة نسبيًا للتحقق الهندسي. يتميز RRTs بخفّته وسهولة توازيه، مما يسمح بإعادة ترتيب مجموعة من النتائج المتطابقة الأعلى في عملية واحدة فقط من التمرير الأمامي (forward-pass). أجرينا تجارب واسعة على مجموعتي بيانات Revisited Oxford وParis، بالإضافة إلى مجموعة بيانات Google Landmarks v2، وأظهرت النتائج أن RRTs تتفوّق على الطرق السابقة لإعادة الترتيب، مع استخدام عدد أقل بكثير من الميزات المحلية. علاوةً على ذلك، نُظهر أن RRTs، على عكس الطرق الحالية، يمكن تحسينها معًا مع مُستخرج الميزات، ما يؤدي إلى تمثيلات ميزات مُصممة خصيصًا للمهام التالية، ويزيد من الدقة بشكل إضافي. تم إتاحة الكود والنماذج المدربة للجمهور عبر الرابط: https://github.com/uvavision/RerankingTransformer.