LOTRO: توجيه نقاط الوجه باستخدام محول التوجيه

تقدم هذه الورقة بيئة جديدة لاستشعار نقاط الوجه تعتمد على شبكة Transformer تُسمى Transformer للتحديد (LOTR). يتمثل الإطار المقترح في منهجية مباشرة لاسترجاع الإحداثيات، حيث يستخدم شبكة Transformer لاستغلال أفضل لمعلومات المكان في خريطة الميزات. يتألف نموذج LOTR من ثلاث وحدات رئيسية: 1) هيكل بصري يحول الصورة المدخلة إلى خريطة ميزات، 2) وحدة Transformer التي تُحسّن تمثيل الميزات الناتجة من الهيكل البصري، و3) رأس تنبؤ بتحديد نقاط الوجه الذي يُقدّر إحداثيات نقاط الوجه مباشرةً من تمثيل Transformer. وباستخدام صور وجه مقطوعة ومُتماثلة، يمكن تدريب LOTR بشكل كامل (end-to-end) دون الحاجة إلى أي خطوات ما بعد المعالجة. كما تقدم هذه الورقة دالة خسارة جديدة تُسمى smooth-Wing، والتي تعالج انقطاع التدرج في دالة Wing، مما يؤدي إلى تقارب أفضل مقارنة بالدوال القياسية مثل L1 وL2 وWing. أظهرت النتائج التجريبية على مجموعة بيانات JD لتحديد نقاط الوجه التي قدمتها المسابقة الكبرى الأولى لتحديد نقاط الوجه الـ106، تفوق LOTR على الطرق الحالية في قائمة التصنيف، وكذلك على طريقتين حديثتين تعتمدان على خرائط الحرارة. كما أظهر إطار LOTR المقترح نتائج واعدة مقارنة بعدة طرق حديثة متقدمة على مجموعة بيانات WFLW. بالإضافة إلى ذلك، نُشرت تحسينات في أداء التعرف على الوجه من الطراز المتقدم عند استخدام نماذج LOTR المقترحة لضبط الوجه.