EHANet: شبكة تجميع هيراركية فعالة لتحليل الوجه
في السنوات الأخيرة، شهدت مُعالجة الوجه (Face Parsing) تقدماً سريعاً بفضل الشبكات العصبية العميقة ذات التحويل التوافقي (DCNNs). ومع ذلك، لا تزال تواجه مشكلات متعددة، أبرزها: (1) غالبًا ما لا تحقق الأطر الحديثة الأفضل أداءً التزامن الزمني الفعلي رغم تحسين الأداء؛ (2) تؤدي التشابهات في المظهر إلى تعيين غير دقيق لعلامات البكسل، خصوصاً في الحدود؛ (3) لتعزيز التنبؤ متعدد المقياس، تُدمج السمات العميقة مع السمات السطحية دون أخذ الفجوة الدلالية بينهما بعين الاعتبار. لتجاوز هذه العيوب، نقترح شبكة تجميع هرمية فعالة وفعالة تُسمى EHANet، لتحليل وجه سريع ودقيق. بشكل محدد، نُقدّم أولًا آلية انتباه سياقي على مستوى المرحلة (SCAM)، التي تستخدم المعلومات السياقية على المستوى الأعلى لإعادة ترميز القنوات وفقًا لأهميتها. ثانيًا، نُقدّم بلوك تعويض الفجوة الدلالية (SGCB) لضمان تجميع فعّال للمعلومات الهرمية. ثالثًا، تُسهم مزايا دالة الخسارة الموزونة المُستندة إلى الحدود في معالجة الغموض الدلالي في الحدود. وبلا أي إضافات إضافية، وباستخدام هيكل أساسي خفيف الوزن، نحقق نتائج متميزة على كلا المجموعتين CelebAMask-HQ (78.19% mIoU) وHelen (90.7% F1-score). علاوة على ذلك، يمكن لنموذجنا تحقيق 55 إطارًا في الثانية على بطاقة GTX 1080Ti واحدة مع إدخال بحجم 640×640، وتحقيق أكثر من 300 إطار في الثانية عند دقة 256×256، مما يجعله مناسبًا للتطبيقات الواقعية.