Command Palette
Search for a command to run...
CrossViT: نموذج متعدد المقياس للرؤية يعتمد على الانتباه المتقاطع لتصنيف الصور
CrossViT: نموذج متعدد المقياس للرؤية يعتمد على الانتباه المتقاطع لتصنيف الصور
Chun-Fu Chen Quanfu Fan Rameswar Panda
الملخص
تم تحقيق نتائج واعدة بواسطة نموذج التحويل البصري (ViT) الذي تم تطويره حديثًا في تصنيف الصور مقارنةً بالشبكات العصبية التلافيفية (CNN). مستوحى من هذا التقدم، ندرس في هذه الورقة كيفية تعلم تمثيلات ميزات متعددة المقاييس في نماذج التحويل للتصنيف الصوري. ولتحقيق ذلك، نقترح نموذج تحويل ثنائي الفرع يدمج قطع الصور (أي الرموز في نموذج التحويل) ذات أحجام مختلفة لتكوين ميزات صورية أقوى. يعالج نهجنا رموز القطع الصغيرة والكبيرة عبر فرعين منفصلين بمستويات مختلفة من التعقيد الحسابي، ثم يتم دمج هذه الرموز ببساطة من خلال التأثير الانتباه (attention) متعددة المرات لتعويض بعضها البعض. علاوةً على ذلك، ولتقليل التكلفة الحسابية، نطور وحدة دمج رموز بسيطة ولكنها فعالة تعتمد على التأثير المتقاطع (cross-attention)، والتي تستخدم رمزًا واحدًا لكل فرع كاستعلام لتبادل المعلومات مع الفرع الآخر. ويُعد التأثير المتقاطع المقترح مطلوبًا زمنيًا خطيًا لكل من التعقيد الحسابي والذاكرة، بدلًا من التعقيد التربيعي الذي يُستخدم عادةً. تُظهر التجارب الواسعة أن أسلوبنا يتفوق أو يوازي عدة أعمال متزامنة في مجال التحويل البصري، بالإضافة إلى النماذج الفعالة من الشبكات العصبية التلافيفية. على سبيل المثال، على مجموعة بيانات ImageNet1K، وباستخدام بعض التغيرات المعمارية، يتفوق أسلوبنا على نموذج DeiT الحديث بفارق كبير قدره 2% مع زيادة طفيفة إلى معتدلة في عدد العمليات الحسابية (FLOPs) وعدد المعاملات النموذجية. تتوفر الشفرات المصدرية والنموذج الخاص بنا على الرابط: \url{https://github.com/IBM/CrossViT}.