منذ 8 أشهر

الملخص

تم تحقيق نتائج واعدة بواسطة نموذج التحويل البصري (ViT) الذي تم تطويره حديثًا في تصنيف الصور مقارنةً بالشبكات العصبية التلافيفية (CNN). مستوحى من هذا التقدم، ندرس في هذه الورقة كيفية تعلم تمثيلات ميزات متعددة المقاييس في نماذج التحويل للتصنيف الصوري. ولتحقيق ذلك، نقترح نموذج تحويل ثنائي الفرع يدمج قطع الصور (أي الرموز في نموذج التحويل) ذات أحجام مختلفة لتكوين ميزات صورية أقوى. يعالج نهجنا رموز القطع الصغيرة والكبيرة عبر فرعين منفصلين بمستويات مختلفة من التعقيد الحسابي، ثم يتم دمج هذه الرموز ببساطة من خلال التأثير الانتباه (attention) متعددة المرات لتعويض بعضها البعض. علاوةً على ذلك، ولتقليل التكلفة الحسابية، نطور وحدة دمج رموز بسيطة ولكنها فعالة تعتمد على التأثير المتقاطع (cross-attention)، والتي تستخدم رمزًا واحدًا لكل فرع كاستعلام لتبادل المعلومات مع الفرع الآخر. ويُعد التأثير المتقاطع المقترح مطلوبًا زمنيًا خطيًا لكل من التعقيد الحسابي والذاكرة، بدلًا من التعقيد التربيعي الذي يُستخدم عادةً. تُظهر التجارب الواسعة أن أسلوبنا يتفوق أو يوازي عدة أعمال متزامنة في مجال التحويل البصري، بالإضافة إلى النماذج الفعالة من الشبكات العصبية التلافيفية. على سبيل المثال، على مجموعة بيانات ImageNet1K، وباستخدام بعض التغيرات المعمارية، يتفوق أسلوبنا على نموذج DeiT الحديث بفارق كبير قدره 2% مع زيادة طفيفة إلى معتدلة في عدد العمليات الحسابية (FLOPs) وعدد المعاملات النموذجية. تتوفر الشفرات المصدرية والنموذج الخاص بنا على الرابط: \url{https://github.com/IBM/CrossViT}.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Chun-Fu Chen Quanfu Fan Rameswar Panda

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Chun-Fu Chen Quanfu Fan Rameswar Panda

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Chun-Fu Chen Quanfu Fan Rameswar Panda

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

CrossViT: نموذج متعدد المقياس للرؤية يعتمد على الانتباه المتقاطع لتصنيف الصور

Chun-Fu Chen Quanfu Fan Rameswar Panda

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

CrossViT: نموذج متعدد المقياس للرؤية يعتمد على الانتباه المتقاطع لتصنيف الصور

Chun-Fu Chen Quanfu Fan Rameswar Panda

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

CrossViT: نموذج متعدد المقياس للرؤية يعتمد على الانتباه المتقاطع لتصنيف الصور

Chun-Fu Chen Quanfu Fan Rameswar Panda

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters