HRFormer: نموذج تحويل عالي الدقة للتنبؤ الكثيف

نقدّم نموذج التحويل العالي الدقة (HRFormer) الذي يتعلم تمثيلات عالية الدقة للمهام التنبؤية الكثيفة، على عكس النموذج الأصلي لتحويل الرؤية (Vision Transformer) الذي يُنتج تمثيلات منخفضة الدقة ويتسم بتكاليف عالية في الذاكرة والحساب. ونتيجة لاستغلال التصميم المتعدد الدقة المتوازية المُقدَّم في الشبكات التلافيفية عالية الدقة (HRNet)، بالإضافة إلى انتباه ذاتي موضعية يعمل على نوافذ صغيرة غير متداخلة من الصورة، نُحسّن كفاءة الذاكرة والحساب. علاوة على ذلك، نُدخل عملية تلافيفية (convolution) داخل وحدة التحويل الأمامي (FFN) لتبادل المعلومات بين النوافذ الصورية المنفصلة. ونُظهر فعالية نموذج HRFormer في مهام تقدير وضعية الإنسان وتصنيف الدلالة، حيث يتفوّق نموذج HRFormer على نموذج Swin Transformer بـ 1.3 نقطة في مؤشر AP على مهمة تقدير وضعية الإنسان في مجموعة بيانات COCO، مع استخدام 50% من عدد المعاملات و30% من عدد العمليات الحسابية (FLOPs). يمكن الوصول إلى الكود عبر الرابط التالي: https://github.com/HRNet/HRFormer.