التعلم العميق لخصائص الوجه في البيئة الطبيعية

تنبؤ الخصائص الوجهية في البيئة الطبيعية أمرٌ صعب بسبب التباينات المعقدة للوجوه. نقترح إطارًا جديدًا للتعلم العميق لتنبؤ الخصائص الوجهية في البيئة الطبيعية. يتألف هذا الإطار من سلسلة مترابطة من شبكتين عصبيتين متعمقتين، وهما LNet وANet، اللتان يتم ضبطهما بشكل مشترك باستخدام علامات الخصائص، ولكن يتم تدريبهما مسبقًا بطريقة مختلفة. يتم تدريب LNet مسبقًا باستخدام فئات كثيرة من الأشياء العامة للتحلي بالوجه، بينما يتم تدريب ANet مسبقًا باستخدام هويات كثيرة للوجوه لتنبؤ الخصائص. هذا الإطار لا يتفوق فقط على أحدث التقنيات بفارق كبير، بل يكشف أيضًا حقائق قيمة حول تعلم تمثيل الوجه.(1) يوضح كيف يمكن تحسين أداء تحديد موقع الوجه (LNet) وتنبؤ الخصائص (ANet) من خلال استراتيجيات التدريب المسبق المختلفة.(2) يكشف أن مرشحات LNet، رغم أنها يتم ضبطها فقط باستخدام علامات خصائص الصورة على مستوى الصورة، فإن خرائط استجاباتها عبر الصور بأكملها لها إشارة قوية لمواقع الوجوه. هذه الحقيقة تتيح تدريب LNet لتحديد موقع الوجه باستخدام فقط شروح الصورة على المستوى العام، دون الحاجة إلى مربعات حصر الوجه أو العلامات المرجعية التي تتطلبها جميع أعمال التعرف على الخصائص.(3) كما يظهر أن العصبونات المخفية ذات المستوى العالي في ANet تقوم اوتوماتيكياً باكتشاف المفاهيم الدلالية بعد التدريب المسبق باستخدام هويات كثيرة للوجوه، وأن هذه المفاهيم تنثر بشكل كبير بعد ضبطها باستخدام علامات الخصائص. يمكن شرح كل خاصية بشكل جيد بواسطة تركيبة خطية نادرة من هذه المفاهيم.