HyperAIHyperAI
منذ 16 أيام

GMTR: نماذج التحويل الرسومية للتطابق

Jinpei Guo, Shaofeng Zhang, Runzhong Wang, Chang Liu, Junchi Yan
GMTR: نماذج التحويل الرسومية للتطابق
الملخص

تم استخدام نماذج المحولات البصرية (ViTs) مؤخرًا في المطابقة البصرية خارج مجالات اكتشاف الكائنات والتقسيم البصري. ومع ذلك، فإن استراتيجية التقسيم الشبكي الأصلية الخاصة بـ ViTs تتجاهل المعلومات المكانية للنقاط المميزة (keypoints)، مما يحد من حساسية النموذج تجاه المعلومات المحلية. لذا، نقترح نموذج QueryTrans (محول الاستعلام)، الذي يعتمد على وحدة انتباه متقاطع واستراتيجية قص مركزية قائمة على النقاط المميزة، بهدف استخلاص معلومات مكانية أفضل. كما ندمج وحدة انتباه رسمية (graph attention module) ونُصَمّم نهجًا مبنيًا على المحولات لمطابقة الرسوم البيانية يُسمى GMTR (Transformers for Graph Matching)، حيث يتم معالجة الطبيعة التوافقية (combinatorial nature) لمطابقة الرسوم البيانية من خلال حلّال شبكي انتباه رسمية مبني على المحولات. وعلى معايير مطابقة الرسوم البيانية القياسية، تُظهر GMTR أداءً تنافسيًا مع الأطر الرائدة (SOTA). بشكل خاص، حققت GMTR دقة بلغت $\mathbf{83.6\%}$ على مجموعة بيانات Pascal VOC، أي بزيادة قدرها $\mathbf{0.9\%}$ مقارنة بالنموذج الرائد. وعلى مجموعة بيانات Spair-71k، أظهرت GMTR إمكانات كبيرة وتفوقت على معظم الدراسات السابقة. وفي الوقت نفسه، على مجموعة بيانات Pascal VOC، ساهم QueryTrans في رفع دقة NGMv2 من $80.1\%$ إلى $\mathbf{83.3\%}$، ورفع دقة BBGM من $79.0\%$ إلى $\mathbf{84.5\%}$. أما على مجموعة بيانات Spair-71k، فقد رفع QueryTrans دقة NGMv2 من $80.6\%$ إلى $\mathbf{82.5\%}$، ورفع دقة BBGM من $82.1\%$ إلى $\mathbf{83.9\%}$. وسيتم إتاحة الكود المصدري للعامة قريبًا.

GMTR: نماذج التحويل الرسومية للتطابق | أحدث الأوراق البحثية | HyperAI