TransMatcher: مطابقة الصور العميقة من خلال الترانسفورمرز للتعريف بالشخص القابل للتعميم

الشبكات العصبية المتحولة (Transformers) حازت مؤخرًا على اهتمام متزايد في مجال رؤية الحاسوب. ومع ذلك، فإن معظم الدراسات الحالية تستخدم الشبكات المتحولة لتعلم تمثيل الخصائص، مثل تصنيف الصور والتنبؤات الكثيفة، ولا يزال من غير المعروف مدى قابلية الشبكات المتحولة للعمومية. في هذا البحث، نقوم بدراسة إمكانية تطبيق الشبكات المتحولة لتطابق الصور وتعلم المقاييس عند التعامل مع أزواج من الصور. لقد اكتشفنا أن متحول الرؤية (Vision Transformer - ViT) والشبكة المتحولة التقليدية مع المفككات ليست كافية لتطابق الصور بسبب عدم وجود انتباه صورة إلى صورة. لذلك، قمنا بتصميم حلول بسيطة اثنين، وهما دمج الاستعلام والمعرض (query-gallery concatenation) في ViT، وانتباه متقاطع بين الاستعلام والمعرض (query-gallery cross-attention) في الشبكة المتحولة التقليدية. الحل الثاني يحسن الأداء ولكنه لا يزال محدودًا. هذا يعني أن آلية الانتباه في الشبكات المتحولة مصممة بشكل أساسي لتجميع الخصائص العالمية، وهو ما ليس مناسبًا بشكل طبيعي لتطابق الصور.بناءً على ذلك، نقترح محول فك التشفير جديد ومُبسَّط، والذي يلغي تنفيذ الانتباه الكامل مع وزن softmax ويحتفظ فقط بحساب تشابه الاستعلام-المفتاح (query-key similarity). بالإضافة إلى ذلك، يتم تطبيق التجميع الأقصى العالمي (global max pooling) ورأس شبكتي العصبونات المتعددة الطبقات (multilayer perceptron - MLP) لفك شفرة نتيجة التطابق. بهذه الطريقة، يكون المحول الفك التشفير المُبسَّط أكثر كفاءة من الناحية الحسابية وفي الوقت نفسه أكثر فعالية لتطابق الصور. الطريقة المقترحة، والتي تُسمى TransMatcher، حققت أداءً رائدًا في إعادة تعريف الشخص القابل للعمومية، حيث سجلت زيادة في الأداء تصل إلى 6.1٪ و5.7٪ في Rank-1 وmAP على التوالي على عدة مجموعات بيانات شائعة.الرمز البرمجي متاح على الرابط: https://github.com/ShengcaiLiao/QAConv.