شبكات U-Net الكثيفة المتصلة للكمّ للتموضع الفعّال للنقاط المرجعية

في هذا البحث، نقترح استخدام شبكات U-Nets الكثيفة المتصلة والمُكمَّمة لتحقيق توطين المعالم البصرية بكفاءة. الفكرة هي إعادة استخدام الخصائص ذات المعاني الدلالية المتشابهة على نطاق عالمي عبر شبكات U-Nets المتراكمة. يساهم هذا الاتصال الكثيف بشكل كبير في تحسين تدفق المعلومات، مما يؤدي إلى زيادة دقة التوطين. ومع ذلك، فإن التصميم الكثيف التقليدي سيواجه مشكلة كفاءة حاسمة سواءً أثناء التدريب أو الاختبار. لحل هذه المشكلة، نقترح أولاً الاتصال الكثيف من الرتبة K لقص الروابط الطويلة؛ ثم نستخدم تنفيذًا يوفر الذاكرة بشكل كبير لتعزيز كفاءة التدريب بشكل ملحوظ وندرس تقنية التكرار للتحسين التي قد تقلل حجم النموذج بمقدار النصف. أخيرًا، لخفض استهلاك الذاكرة والعمليات عالية الدقة سواءً أثناء التدريب أو الاختبار، نقوم بتكميم أوزان الشبكة وأدخالها والتدرجات إلى أرقام ذات عرض بت منخفض. قمنا بتحقق صحة نهجنا في مهمتين: تقدير وضع الإنسان (human pose estimation) وتوحيد الوجه (face alignment). تظهر النتائج أن نهجنا يحقق أعلى مستوى من دقة التوطين باستخدام حوالي 70% أقل من المعلمات، وحوالي 98% أقل حجم للنموذج وحفظ حوالي 75% من ذاكرة التدريب مقارنة بالمحققات المعيارية الأخرى. يمكن الوصول إلى الرمز البرمجي في https://github.com/zhiqiangdon/CU-Net.