التمثيلات عالية الدقة لتصنيف البكسلات والمناطق

يقوم تعلم التمثيلات عالية الدقة بدور حاسم في العديد من مشاكل الرؤية، مثل تقدير الوضع والتقسيم الدلالي. تم تطوير الشبكة عالية الدقة (HRNet)~\cite{SunXLW19} مؤخرًا لتقدير وضع الإنسان، حيث تحتفظ بالتمثيلات عالية الدقة طوال العملية من خلال ربط التحويلات عالية الدقة إلى منخفضة الدقة \emph{بشكل متوازي} وإنتاج تمثيلات قوية ذات دقة عالية عن طريق إجراء الاندماجات المتكررة عبر التحويلات المتوازية.في هذا البحث، نجري دراسة أعمق على التمثيلات عالية الدقة من خلال تقديم تعديل بسيط ولكنه فعال وتطبيقه على مجموعة واسعة من مهام الرؤية. نعزز التمثيل عالي الدقة من خلال جمع التمثيلات (المضاعفة) من جميع التحويلات المتوازية بدلاً من استخدام تمثيل التحويل عالي الدقة فقط كما هو الحال في~\cite{SunXLW19}. يؤدي هذا التعديل البسيط إلى إنتاج تمثيلات أقوى، وهو ما يثبته النتائج المتفوقة. نقدم أفضل النتائج في التقسيم الدلالي على Cityscapes و LIP و PASCAL Context، وفي اكتشاف معالم الوجه على AFLW و COFW و $300$W و WFLW. بالإضافة إلى ذلك، نبني تمثيلاً متعدد المستويات من التمثيل عالي الدقة ونطبقه على إطار اكتشاف الأشياء Faster R-CNN والإطارات الموسعة. يحقق النهج المقترح نتائج أفضل مقارنة بالشبكات الفردية الموجودة على COCO للكشف عن الأشياء. أصبح الكود والنموذج متاحين للعامة في \url{https://github.com/HRNet}.