HyperAIHyperAI
منذ 17 أيام

بيكسل-في-بيكسل نت: نحو كشف فعّال للنقاط الوجهية في البيئات الطبيعية

Haibo Jin, Shengcai Liao, Ling Shao
بيكسل-في-بيكسل نت: نحو كشف فعّال للنقاط الوجهية في البيئات الطبيعية
الملخص

في الآونة الأخيرة، أصبحت نماذج الانحدار الحراري (heatmap regression) شائعة بفضل أدائها المتميز في تحديد نقاط الوجه. ومع ذلك، تظل هناك ثلاث مشكلات رئيسية تواجه هذه النماذج: (1) ارتفاع التكلفة الحسابية؛ (2) نقص القيود الصريحة على الأشكال العالمية؛ (3) وجود فجوات بين المجالات (domain gaps) بشكل شائع. ولحل هذه المشكلات، نقترح نموذج "بيكسل-في-بيكسل نت" (PIPNet) لتحديد نقاط الوجه. يتميز النموذج المقترح برأس كشف جديد يعتمد على الانحدار الحراري، والذي يقوم في آنٍ واحد بتحديث التقديرات الخاصة بالدرجة (score) والانزياح (offset) على خرائط الميزات منخفضة الدقة. وبذلك، لم تعد الحاجة إلى طبقات تكبير متكررة ضرورية، مما يقلل بشكل كبير من زمن الاستدلال دون التضحية بدقة النموذج. علاوةً على ذلك، نقترح وحدة انحدار جارٍ بسيطة ولكنها فعالة، والتي تفرض قيودًا محلية من خلال دمج التقديرات من نقاط الوجه المجاورة، ما يعزز من مرونة وقوة رأس الكشف الجديد. ولتحسين القدرة على التعميم عبر المجالات بشكل أكبر، نقترح استخدام التدريب الذاتي مع خطة تعليمية (curriculum). وتُمكّن هذه الاستراتيجية من استخراج علامات افتراضية أكثر موثوقية من البيانات غير المُعلَّمة عبر المجالات، بدءًا من مهام أبسط، ثم زيادة الصعوبة تدريجيًا لتوفير علامات أكثر دقة. تُظهر التجارب الواسعة تفوق PIPNet، حيث حقق نتائج متميزة على ثلاث من أصل ستة معايير شائعة تحت الإعداد المُراقب. كما تم تحسين النتائج على مجموعتي اختبار عبر المجالات مقارنةً بالأساليب السابقة. وبشكل ملحوظ، تعمل النسخة الخفيفة من PIPNet بسرعة 35.7 إطارًا في الثانية على وحدة المعالجة المركزية (CPU)، و200 إطارًا في الثانية على وحدة المعالجة الرسومية (GPU)، مع الحفاظ على دقة تنافسية تُقارن بأفضل النماذج الحالية. يمكن الوصول إلى كود PIPNet عبر الرابط: https://github.com/jhb86253817/PIPNet.