HyperAIHyperAI

Command Palette

Search for a command to run...

CrossViT: نموذج متعدد المقياس للرؤية يعتمد على الانتباه المتقاطع لتصنيف الصور

Chun-Fu Chen Quanfu Fan Rameswar Panda

الملخص

تم تحقيق نتائج واعدة بواسطة نموذج التحويل البصري (ViT) الذي تم تطويره حديثًا في تصنيف الصور مقارنةً بالشبكات العصبية التلافيفية (CNN). مستوحى من هذا التقدم، ندرس في هذه الورقة كيفية تعلم تمثيلات ميزات متعددة المقاييس في نماذج التحويل للتصنيف الصوري. ولتحقيق ذلك، نقترح نموذج تحويل ثنائي الفرع يدمج قطع الصور (أي الرموز في نموذج التحويل) ذات أحجام مختلفة لتكوين ميزات صورية أقوى. يعالج نهجنا رموز القطع الصغيرة والكبيرة عبر فرعين منفصلين بمستويات مختلفة من التعقيد الحسابي، ثم يتم دمج هذه الرموز ببساطة من خلال التأثير الانتباه (attention) متعددة المرات لتعويض بعضها البعض. علاوةً على ذلك، ولتقليل التكلفة الحسابية، نطور وحدة دمج رموز بسيطة ولكنها فعالة تعتمد على التأثير المتقاطع (cross-attention)، والتي تستخدم رمزًا واحدًا لكل فرع كاستعلام لتبادل المعلومات مع الفرع الآخر. ويُعد التأثير المتقاطع المقترح مطلوبًا زمنيًا خطيًا لكل من التعقيد الحسابي والذاكرة، بدلًا من التعقيد التربيعي الذي يُستخدم عادةً. تُظهر التجارب الواسعة أن أسلوبنا يتفوق أو يوازي عدة أعمال متزامنة في مجال التحويل البصري، بالإضافة إلى النماذج الفعالة من الشبكات العصبية التلافيفية. على سبيل المثال، على مجموعة بيانات ImageNet1K، وباستخدام بعض التغيرات المعمارية، يتفوق أسلوبنا على نموذج DeiT الحديث بفارق كبير قدره 2% مع زيادة طفيفة إلى معتدلة في عدد العمليات الحسابية (FLOPs) وعدد المعاملات النموذجية. تتوفر الشفرات المصدرية والنموذج الخاص بنا على الرابط: \url{https://github.com/IBM/CrossViT}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
CrossViT: نموذج متعدد المقياس للرؤية يعتمد على الانتباه المتقاطع لتصنيف الصور | مستندات | HyperAI