HyperAIHyperAI
منذ 17 أيام

Twins: إعادة النظر في تصميم الانتباه المكاني في نماذج التحول البصري

Xiangxiang Chu, Zhi Tian, Yuqing Wang, Bo Zhang, Haibing Ren, Xiaolin Wei, Huaxia Xia, Chunhua Shen
Twins: إعادة النظر في تصميم الانتباه المكاني في نماذج التحول البصري
الملخص

في الآونة الأخيرة، تم اقتراح مجموعة متنوعة من هياكل نماذج التحويل البصري (Vision Transformer) المخصصة للمهام التي تتطلب التنبؤ الكثيف، وقد أظهرت هذه النماذج أن تصميم الانتباه المكاني يُعد عنصراً حاسماً لنجاحها في هذه المهام. وفي هذا العمل، نعيد النظر في تصميم الانتباه المكاني، ونُظهر أن آلية انتباه مكاني بسيطة ولكن مصممة بدقة تتفوق على الأساليب الرائدة في المجال. وبنتيجة ذلك، نقترح نموذجين جديدين من نماذج التحويل البصري، وهما Twins-PCPVT وTwins-SVT. تميز الهياكل المقترحة بالكفاءة العالية وسهولة التنفيذ، حيث تعتمد فقط على عمليات ضرب المصفوفات التي تم تحسينها بشكل كبير في الإطارات الحديثة للتعلم العميق. والأهم من ذلك، تحقق الهياكل المقترحة أداءً ممتازاً في طيف واسع من المهام البصرية، بما في ذلك التصنيف على مستوى الصورة، بالإضافة إلى الكشف الكثيف والتقسيم البصري. وتبين البساطة والفعالية القوية لهذه الهياكل أنّها قد تُعدّ خلفيات أقوى لعدة مهام بصرية. تم إتاحة الشفرة المصدرية الخاصة بنا على الرابط: https://github.com/Meituan-AutoML/Twins.