منذ 8 أشهر

الملخص

الشبكات العصبية المتحولة (Transformers) حازت مؤخرًا على اهتمام متزايد في مجال رؤية الحاسوب. ومع ذلك، فإن معظم الدراسات الحالية تستخدم الشبكات المتحولة لتعلم تمثيل الخصائص، مثل تصنيف الصور والتنبؤات الكثيفة، ولا يزال من غير المعروف مدى قابلية الشبكات المتحولة للعمومية. في هذا البحث، نقوم بدراسة إمكانية تطبيق الشبكات المتحولة لتطابق الصور وتعلم المقاييس عند التعامل مع أزواج من الصور. لقد اكتشفنا أن متحول الرؤية (Vision Transformer - ViT) والشبكة المتحولة التقليدية مع المفككات ليست كافية لتطابق الصور بسبب عدم وجود انتباه صورة إلى صورة. لذلك، قمنا بتصميم حلول بسيطة اثنين، وهما دمج الاستعلام والمعرض (query-gallery concatenation) في ViT، وانتباه متقاطع بين الاستعلام والمعرض (query-gallery cross-attention) في الشبكة المتحولة التقليدية. الحل الثاني يحسن الأداء ولكنه لا يزال محدودًا. هذا يعني أن آلية الانتباه في الشبكات المتحولة مصممة بشكل أساسي لتجميع الخصائص العالمية، وهو ما ليس مناسبًا بشكل طبيعي لتطابق الصور.بناءً على ذلك، نقترح محول فك التشفير جديد ومُبسَّط، والذي يلغي تنفيذ الانتباه الكامل مع وزن softmax ويحتفظ فقط بحساب تشابه الاستعلام-المفتاح (query-key similarity). بالإضافة إلى ذلك، يتم تطبيق التجميع الأقصى العالمي (global max pooling) ورأس شبكتي العصبونات المتعددة الطبقات (multilayer perceptron - MLP) لفك شفرة نتيجة التطابق. بهذه الطريقة، يكون المحول الفك التشفير المُبسَّط أكثر كفاءة من الناحية الحسابية وفي الوقت نفسه أكثر فعالية لتطابق الصور. الطريقة المقترحة، والتي تُسمى TransMatcher، حققت أداءً رائدًا في إعادة تعريف الشخص القابل للعمومية، حيث سجلت زيادة في الأداء تصل إلى 6.1٪ و5.7٪ في Rank-1 وmAP على التوالي على عدة مجموعات بيانات شائعة.الرمز البرمجي متاح على الرابط: https://github.com/ShengcaiLiao/QAConv.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Shengcai Liao Ling Shao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Shengcai Liao Ling Shao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Shengcai Liao Ling Shao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

TransMatcher: مطابقة الصور العميقة من خلال الترانسفورمرز للتعريف بالشخص القابل للتعميم

Shengcai Liao Ling Shao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

TransMatcher: مطابقة الصور العميقة من خلال الترانسفورمرز للتعريف بالشخص القابل للتعميم

Shengcai Liao Ling Shao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

TransMatcher: مطابقة الصور العميقة من خلال الترانسفورمرز للتعريف بالشخص القابل للتعميم

Shengcai Liao Ling Shao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters