HyperAIHyperAI

Command Palette

Search for a command to run...

متحولات الرؤية القابلة للتوسيع مع التجميع الهرمي

Zizheng Pan Bohan Zhuang† Jing Liu Haoyu He Jianfei Cai

الملخص

النماذج المقترحة حديثًا من محولات الصور البصرية (ViT) ذات الانتباه النقي حققت أداءً واعدًا في مهام التعرف على الصور، مثل تصنيف الصور. ومع ذلك، فإن الروتين المعتاد للنموذج الحالي من ViT هو الحفاظ على تسلسل كامل للشظايا خلال الاستدلال، مما يعتبر زائدًا ولا يحتوي على تمثيل هرمي. لذا، نقترح محول بصري هرمي (HVT) يقوم بتجميع الرموز البصرية تدريجيًا لتقليل طول التسلسل وبالتالي خفض التكلفة الحسابية، مشابهًا لعملية تقليل خرائط الميزات في شبكات العصبونات التلافيفية (CNNs). هذا يوفر فائدة كبيرة وهي أنه يمكن زيادة قدرة النموذج بتوسيع أبعاد العمق/العرض/الدقة/حجم الشظايا دون إدخال تعقيدات حسابية إضافية بسبب تقلص طول التسلسل. علاوة على ذلك، وجدنا بالتجربة أن الرموز البصرية التي تم تجميعها بمتوسط تحتوي على معلومات تمييزية أكثر من رمز الفئة الواحد. لإظهار القابلية للتوسع المحسنة لنموذجنا HVT، أجرينا تجارب واسعة النطاق على مهمة تصنيف الصور. مع عدد مكافئ من العمليات العائمة (FLOPs)، يتفوق نموذجنا HVT على الخطوط الأساسية التنافسية في مجموعتي بيانات ImageNet و CIFAR-100. يمكن الوصول إلى الكود عبر الرابط: https://github.com/MonashAI/HVT


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp