HyperAIHyperAI
منذ 2 أشهر

هيرا: محول رؤية هرمي بدون الزخارف الإضافية

Ryali, Chaitanya ; Hu, Yuan-Ting ; Bolya, Daniel ; Wei, Chen ; Fan, Haoqi ; Huang, Po-Yao ; Aggarwal, Vaibhav ; Chowdhury, Arkabandhu ; Poursaeed, Omid ; Hoffman, Judy ; Malik, Jitendra ; Li, Yanghao ; Feichtenhofer, Christoph
هيرا: محول رؤية هرمي بدون الزخارف الإضافية
الملخص

ال Transformers الرؤية الهرمية الحديثة قد أضافت عدة مكونات خاصة بالرؤية في سعيها لتحقيق أداء تصنيف مشرف. بينما تؤدي هذه المكونات إلى دقة فعالة وأعداد عمليات عائمة جذابة (FLOP)، فإن التعقيد الإضافي يجعل هذه النماذج أبطأ من نظيراتها البسيطة من ViT. في هذا البحث، ندّعي أن هذا الحجم الإضافي غير ضروري. من خلال التدريب الأولي باستخدام مهمة بصرية قوية كمهمة سابقة (MAE)، يمكننا إزالة جميع الإضافات الفاخرة من Transformer متعدد المراحل حديث على أعلى مستوى دون فقدان الدقة. وفي هذا السياق، قمنا بإنشاء Hiera، وهو Transformer رؤية هرمي غاية في البساطة يتفوق في الدقة على النماذج السابقة مع كونه أسرع بكثير أثناء الاستدلال والتدريب. نقوم بتقييم Hiera على مجموعة متنوعة من المهام المتعلقة باعتراف الصور والفيديوهات. شفرتنا البرمجية ونماذجنا متاحة على الرابط: https://github.com/facebookresearch/hiera.