عندما يلتقي برميل ليبيغ بتحديد نقاط الوجه: نموذج عملي

في السنوات الأخيرة، تم إحراز تقدم كبير في أبحاث كشف نقاط الوجه (Facial Landmark Detection). ومع ذلك، فإن عدد الدراسات السابقة التي ناقشت بشكل شامل النماذج المُستخدمة في التطبيقات العملية كان محدودًا. بدلًا من ذلك، غالبًا ما تركز هذه الدراسات على تحسين عدد قليل من المشكلات في كل مرة، بينما تتجاهل باقي الجوانب. ولسد هذه الفجوة، نهدف إلى استكشاف نموذج عملي يتميز بالدقة، والثبات، والكفاءة، والقابلية التعميم، والتدريب من البداية إلى النهاية (end-to-end) في آنٍ واحد. ولتحقيق ذلك، نقترح أولًا نموذجًا أساسيًا (baseline) مزودًا بـ "مُفكّك (decoder) مُعتمِد على الترانسفورمر" كرأس كشف. ولتحقيق دقة أعلى، نُقدّم لاحقًا وحدتين خفيفتين، وهما: تهيئة الاستفسارات الديناميكية (Dynamic Query Initialization - DQInit)، وذاكرة مُتّسقة مع الاستفسار (Query-aware Memory - QAMem). وتحديدًا، يُهَيِّئ DQInit الاستفسارات الخاصة بالمُفكّك ديناميكيًا من المدخلات، مما يمكّن النموذج من تحقيق دقة تُعادل دقة النماذج التي تمتلك عدة طبقات في المُفكّك. أما QAMem، فيُصمَّم لتعزيز القدرة التمييزية للاستفسارات على خرائط الميزات من دقة منخفضة، من خلال تخصيص قيم ذاكرة منفصلة لكل استفسار بدلًا من استخدام ذاكرة مشتركة. وبفضل QAMem، يُلغى اعتماد النموذج على خرائط ميزات عالية الدقة، مع الحفاظ على دقة متفوقة. أظهرت التجارب الواسعة والتحليلات على ثلاث معايير شهيرة (benchmarks) فعالية النموذج المقترح و它的 المزايا العملية. وبشكل مميز، حقق النموذج الجديد أفضل أداء في معيار WFLW، ونتائج تنافسية في معياري 300W و COFW، مع الاستمرار في العمل بسرعة تزيد عن 50 إطارًا في الثانية (FPS).