HyperAIHyperAI
منذ 3 أشهر

TransforMatcher: انتباه المطابقة-إلى-المطابقة للتوافق الدلالي

Seungwook Kim, Juhong Min, Minsu Cho
TransforMatcher: انتباه المطابقة-إلى-المطابقة للتوافق الدلالي
الملخص

إرساء تطابقات بين الصور يظل مهمة صعبة، خاصة في ظل التغيرات الكبيرة في المظهر الناتجة عن وجهات نظر مختلفة أو التغيرات داخل الفئة. في هذه الدراسة، نقدم نموذجًا قويًا للتعلم في التماثل الصوتي يُسمى TransforMatcher، الذي يعتمد على النجاح الذي حققته شبكات التحويل (Transformer) في المجالات البصرية. على عكس النماذج الحالية القائمة على التباديل أو الانتباه، يقوم TransforMatcher بتنفيذ انتباه من مطابقة إلى مطابقة على مستوى عالمي لتحديد موقع المطابقة بدقة وتحسينها ديناميكيًا. ولمعالجة عدد كبير من المطابقات في خريطة الترابط الكثيفة، طوّرنا بنية انتباه خفيفة الوزن لاعتبار التفاعلات العالمية بين المطابقات. كما نقترح استخدام خريطة ترابط متعددة القنوات للتحسين، مع اعتبار الدرجات متعددة المستويات كمميزات بدلًا من درجة واحدة، بهدف استغلال كامل للدلالات الطبقية الغنية. وفي التجارب، حقق TransforMatcher أداءً جديدًا على مستوى الحالة الراهنة (SOTA) على مجموعة SPair-71k، مع أداء مماثل للطرق المتطورة الحالية على مجموعة PF-PASCAL.