التعلم العميق ذو الدقة العالية للتمثيل البصري للاعتراف البصري

التمثيلات عالية الدقة ضرورية للمشاكل الحساسة لموقع الرؤية، مثل تقدير وضع الإنسان، والتقسيم الدلالي، وتحديد الأشياء. الإطارات المتقدمة الحالية تقوم أولاً بترميز الصورة الإدخال كتمثيل منخفض الدقة عبر شبكة فرعية تتشكل من ربط عمليات التفاف الانتقال من الدقة العالية إلى المنخفضة \emph{بشكل متسلسل} (مثل ResNet، VGGNet)، ومن ثم تستعيد التمثيل عالي الدقة من التمثيل المنخفض الدقة المترميز. بدلاً من ذلك، اقترحنا شبكة تسمى الشبكة عالية الدقة (High-Resolution Network - HRNet)، والتي تحتفظ بالتمثيلات عالية الدقة طوال العملية. هناك خصائص رئيسية اثنتان: (i) ربط مسارات التفاف الانتقال من الدقة العالية إلى المنخفضة \emph{بشكل متوازي}؛ (ii) تبادل المعلومات بشكل متكرر بين الدقائق المختلفة. الفائدة هي أن التمثيل الناتج يكون أكثر غنى دلالياً وأكثر دقة في المكان. نظهر تفوق الشبكة المقترحة HRNet في مجموعة واسعة من التطبيقات، بما في ذلك تقدير وضع الإنسان، والتقسيم الدلالي، وتحديد الأشياء، مما يشير إلى أن HRNet هي بنية أساسية أقوى للمشاكل المرتبطة بالرؤية الحاسوبية. جميع الكودات متاحة على~{\url{https://github.com/HRNet}}.