HyperAIHyperAI
منذ 7 أيام

GiT: مُحَوِّل مُتَفاعِل رَسْمِي لِهَوِيَّة المَركَبات

Fei Shen, Yi Xie, Jianqing Zhu, Xiaobin Zhu, Huanqiang Zeng
GiT: مُحَوِّل مُتَفاعِل رَسْمِي لِهَوِيَّة المَركَبات
الملخص

أصبحت نماذج الترانسفورمر شائعة بشكل متزايد في الرؤية الحاسوبية، حيث تُعامل الصورة كسلسلة من المربعات (patches) وتتعلم سمات عالمية قوية من خلال هذه السلسلة. ومع ذلك، فإن النماذج المجردة المبنية على الترانسفورمر ليست مناسبة تمامًا لمهام إعادة تحديد المركبات، نظرًا لأن هذه المهمة تتطلب كلاً من السمات العالمية القوية والسمات المحلية التمييزية. ولحل هذه المشكلة، تم اقتراح نموذج يُسمى "الترانسفورمر التفاعلي الرسومي" (Graph Interactive Transformer - GiT) في هذا البحث. من منظور مكروي، يتم تجميع سلسلة من كتل GiT لبناء نموذج لإعادة تحديد المركبات، حيث تُستخدم الرسوم البيانية (graphs) لاستخراج السمات المحلية التمييزية داخل كل مربع، بينما تُستخدم الترانسفورمرات لاستخراج السمات العالمية القوية بين المربعات. أما من منظور ميكروي، فإن الرسوم البيانية والترانسفورمرات تعمل في حالة تفاعل متبادل، مما يضمن تعاونًا فعّالًا بين السمات المحلية والعالمية. وبشكل محدد، يتم دمج الرسم البياني الحالي بعد دمج الرسم البياني والترانسفورمر من المستوى السابق، بينما يتم دمج الترانسفورمر الحالي بعد الرسم البياني الحالي والترانسفورمر من المستوى السابق. وبالإضافة إلى التفاعل بين الرسوم البيانية والترانسفورمرات، فإن الرسم البياني الجديد مصمم خصيصًا كـ"رسم بياني تصحيح محلي"، حيث يتعلم السمات المحلية التمييزية داخل كل مربع من خلال استكشاف العلاقات بين العقد. وقد أظهرت التجارب الواسعة على ثلاث مجموعات بيانات كبيرة لإعادة تحديد المركبات أن طريقة GiT المقترحة تتفوق على أحدث الطرق المتطورة في مجال إعادة تحديد المركبات.