التأكرار دون تكرار: كشف الملامح الفيديو المستقر باستخدام نماذج التوازن العميق

الحساب المتسلسل، حيث يتم تحسين التنبؤات بشكل متكرر عبر عدة مراحل، كان موضوعًا ثابتًا طوال تطور نماذج كشف النقاط البارزة. في هذا العمل، نُظهر أن النموذج الجديد المعروف بنموذج التوازن العميق (DEQ) يمكن تكييفه بشكل طبيعي لهذا النوع من الحساب. يحقق نموذجنا المُسمى LDEQ أداءً متفوقًا على مجموعة بيانات WFLW الشهيرة لكشف النقاط البارزة في الوجه، حيث يصل إلى قيمة 3.92 في مقياس NME، مع عدد أقل من المعاملات، وتكلفة ذاكرة تدريب تُقاس بـ $\mathcal{O}(1)$ بالنسبة لعدد الوحدات المتكررة. علاوةً على ذلك، نُظهر أن نماذج DEQ مناسبة بشكل خاص لكشف النقاط البارزة في الفيديو. في هذه البيئة، من الشائع تدريب النموذج على صور ثابتة بسبب نقص البيانات المُعلمة في الفيديو، ما قد يؤدي إلى ظاهرة "الاهتزاز" (flickering) أثناء الاستنتاج على الفيديو، حيث يمكن للنموذج أن يتأرجح بسرعة بين حلول ممكنة مختلفة عبر الإطارات المتتالية. من خلال إعادة صياغة نماذج DEQ كمصفوفة تحسين مقيدة، نُقلّد التكرار أثناء الاستنتاج، رغم عدم توفر بيانات زمنية أثناء التدريب. يُعد هذا النموذج المُسمى "التكرار دون تكرار" (RwR) مفيدًا في تقليل ظاهرة اهتزاز النقاط البارزة، كما نُظهر ذلك من خلال تقديم مقياس جديد يُسمى "متوسط الاهتزاز المعياري" (NMF)، وتقديم مجموعة بيانات فيديو جديدة لكشف النقاط البارزة في الوجه (WFLW-V) تهدف إلى قياس عدم اليقين في الكشف. على مجموعة البيانات الصعبة من WFLW-V المكوّنة من 500 فيديو، يُحسّن نموذج LDEQ باستخدام رمز RwR القيمة المُعَدَّلة لـ NME وNMF بنسبة 10% و13% على التوالي، مقارنةً بأقوى نموذج سابق نُشر باستخدام مرشح تقليدي تم ضبطه يدويًا.