HyperAIHyperAI
منذ 2 أشهر

متحولات الرؤية القابلة للتوسيع مع التجميع الهرمي

Pan, Zizheng ; Zhuang, Bohan ; Liu, Jing ; He, Haoyu ; Cai, Jianfei
متحولات الرؤية القابلة للتوسيع مع التجميع الهرمي
الملخص

النماذج المقترحة حديثًا من محولات الصور البصرية (ViT) ذات الانتباه النقي حققت أداءً واعدًا في مهام التعرف على الصور، مثل تصنيف الصور. ومع ذلك، فإن الروتين المعتاد للنموذج الحالي من ViT هو الحفاظ على تسلسل كامل للشظايا خلال الاستدلال، مما يعتبر زائدًا ولا يحتوي على تمثيل هرمي. لذا، نقترح محول بصري هرمي (HVT) يقوم بتجميع الرموز البصرية تدريجيًا لتقليل طول التسلسل وبالتالي خفض التكلفة الحسابية، مشابهًا لعملية تقليل خرائط الميزات في شبكات العصبونات التلافيفية (CNNs). هذا يوفر فائدة كبيرة وهي أنه يمكن زيادة قدرة النموذج بتوسيع أبعاد العمق/العرض/الدقة/حجم الشظايا دون إدخال تعقيدات حسابية إضافية بسبب تقلص طول التسلسل. علاوة على ذلك، وجدنا بالتجربة أن الرموز البصرية التي تم تجميعها بمتوسط تحتوي على معلومات تمييزية أكثر من رمز الفئة الواحد. لإظهار القابلية للتوسع المحسنة لنموذجنا HVT، أجرينا تجارب واسعة النطاق على مهمة تصنيف الصور. مع عدد مكافئ من العمليات العائمة (FLOPs)، يتفوق نموذجنا HVT على الخطوط الأساسية التنافسية في مجموعتي بيانات ImageNet و CIFAR-100. يمكن الوصول إلى الكود عبر الرابط: https://github.com/MonashAI/HVT

متحولات الرؤية القابلة للتوسيع مع التجميع الهرمي | أحدث الأوراق البحثية | HyperAI