SAG-ViT: نهج تقطيع حساس للقياس وعالي الولادة مع انتباه الرسم البياني لمحولات الرؤية

أعادت نماذج المحولات البصرية (ViTs) إعادة تعريف تصنيف الصور من خلال الاستفادة من الانتباه الذاتي لالتقاط الأنماط المعقدة والاعتماديات الطويلة المدى بين قطع الصور. ومع ذلك، يظل التحدي الرئيسي أمام نماذج ViTs هو دمج تمثيلات الميزات متعددة المقياس بشكل فعّال، وهو ما يتمتع به الشبكات العصبية التلافيفية (CNNs) بشكل طبيعي من خلال هيكلها الهرمي. وعلى الرغم من التقدم الذي أحرزته المحولات الرسومية في معالجة هذا التحدي من خلال نمذجة تعتمد على الرسوم البيانية، إلا أنها غالبًا ما تفقد أو تمثل بشكل غير كافٍ الهيكل الهرمي المكاني، خاصةً لأن المناطق الزائدة أو غير ذات الصلة تُضعف تمثيل السياق في الصورة. ولسد هذه الفجوة، نقترح نموذج SAG-ViT، وهو محول انتباه رسومي واعٍ بالمقياس، الذي يدمج قدرات CNNs في تمثيل الميزات متعددة المقياس، وقوة التمثيل الخاصة بنماذج ViTs، بالإضافة إلى تقنية تقسيم القطع المدعومة بالانتباه الرسومي لتمكين تمثيل سياقي غني أكثر. وباستخدام EfficientNetV2 كهيكل أساسي، يستخرج النموذج خرائط ميزات متعددة المقياس، ثم يقسمها إلى قطع، مما يحافظ على معلومات دلالية أعمق مقارنةً بتقسيم الصورة الأصلية مباشرةً. وتُرتب هذه القطع في شكل رسم بياني باستخدام التشابه المكاني والتشابه الميزاتي، حيث يقوم شبكة الانتباه الرسومية (GAT) بتحسين تمثيلات العقد. ثم يتم معالجة هذا التمثيل الرسومي المُحسَّن بواسطة مشغل محول (Transformer encoder)، الذي يلتقط الاعتماديات الطويلة المدى والتفاعلات المعقدة. وقد تم تقييم نموذج SAG-ViT على مجموعات بيانات معيارية في مجالات مختلفة، مما يؤكد فعاليته في تطوير مهام تصنيف الصور. يمكن الاطلاع على الكود والوزن الخاص بنا من خلال الرابط التالي: https://github.com/shravan-18/SAG-ViT.