الإشراف من خلال التسجيل: نهج غير مشرف لتحسين دقة كاشفات معالم الوجه

في هذا البحث، نقدم مفهوم الإشراف بالتسجيل (supervision-by-registration)، وهو نهج غير مشرف لتحسين دقة كاشفات معالم الوجه في الصور وفيديوهات. الملاحظة الأساسية لدينا هي أن اكتشافات نفس المعالم في الإطارات المجاورة يجب أن تكون متناسقة مع التسجيل، أي تدفق الضوء البصري (optical flow). بشكل مثير للإعجاب، فإن تنسق تدفق الضوء البصري هو مصدر إشراف لا يتطلب التسمية اليدوية ويمكن الاستفادة منه أثناء تدريب الكاشف. على سبيل المثال، يمكننا فرض قيود في دالة الخسارة للتدريب بحيث يتطابق المعالم المكتشفة في الإطار${t-1}$ مع موقع الاكتشاف في الإطار$_t$ عند تتبعها بتدفق الضوء البصري من الإطار${t-1}$ إلى الإطار$_t$. في جوهره، يعزز الإشراف بالتسجيل دالة الخسارة للتدريب بخسارة تسجيل، مما يدرب الكاشف ليكون ليس فقط قريبًا من التسميات في الصور الموسومة ولكن أيضًا متسقًا مع التسجيل على كميات كبيرة من الفيديوهات غير الموسومة. يتم تمكين التدريب الشامل باستخدام خسارة التسجيل بواسطة عملية لوكيز-كانادي القابلة للمفاضلة (differentiable Lucas-Kanade operation)، والتي تحسب تسجيل تدفق الضوء البصري خلال مرحلة التنفيذ الأمامي وتقوم بإرجاع التدرجات التي تشجع على التناسق الزمني في الكاشف. النتيجة النهائية لطريقتنا هي كاشف معالم وجه أكثر دقة يستند إلى الصور، والذي يمكن تطبيقه على صور منفردة أو مقاطع فيديو. باستخدام الإشراف بالتسجيل، نثبت (1) تحسينات في اكتشاف معالم الوجه على كل من الصور (300W, ALFW) وفيديوهات (300VW, Youtube-Celebrities)، و(2) تخفيض كبير في الرعشة (jittering) في اكتشافات الفيديو.