CATs: نُظم تجميع التكلفة للاستجابة البصرية

نُقدِّم شبكةً جديدةً لجمع التكلفة تُسمَّى Transformers لجمع التكلفة (CATs)، بهدف إيجاد تطابقات كثيفة بين صور ذات معاني شبيهة، مع مراعاة التحديات الإضافية الناتجة عن التباين الكبير في المظهر والهندسة داخل الفئة الواحدة. يُعدّ عملية جمع التكلفة من العمليات ذات الأهمية البالغة في مهام المطابقة، حيث تعتمد دقة المطابقة على جودة الناتج الناتج عنها. مقارنةً بالطرق التقليدية أو القائمة على الشبكات العصبية التلافيفية (CNN) لمعالجة جمع التكلفة، التي إما تعاني من ضعف المقاومة للتشوهات الشديدة أو تُرث قيود الشبكات العصبية التلافيفية التي تفشل في التمييز بين المطابقات الخاطئة بسبب مجال الاستقبال المحدود، تبحث CATs في التوافق العالمي بين خريطة الترابط الأولية باستخدام بعض التصاميم المعمارية التي تسمح لنا باستغلال كامل آلية الانتباه الذاتي. بشكل خاص، نُدرج نموذج الترابط البصري لمساعدة عملية جمع التكلفة، بهدف توضيح خريطة الترابط الأولية الضوضائية، ونُقدِّم تقنية جمع متعددة المستويات لالتقاط الفروق الدلالية المختلفة من تمثيلات الميزات الهرمية بكفاءة. ثم ندمج تقنية الانتباه الذاتي المُتَبَدِّلة والوصلات المتبقية ليس فقط لضمان التوافق في المطابقة، بل أيضًا لتيسير عملية التعلّم، ونلاحظ أن هذه العناصر تُحدث تحسينًا ملحوظًا في الأداء. أجرينا تجارب لتأكيد فعالية النموذج المقترح مقارنةً بالأساليب الحديثة، وقمنا بدراسات تحليلية واسعة. يمكن الاطلاع على صفحة المشروع من خلال: https://sunghwanhong.github.io/CATs/.