التعلم الذاتي لتمثيل خاصية الوجه من الفيديو

نقترح إطارًا ذاتي الرقابة لتعلم خصائص الوجه من خلال مشاهدة مقاطع فيديو لوجه بشري يتحدث، ويضحك، ويتحرك مع مرور الوقت. لتحقيق هذا الهدف، نقدم شبكة تسمى شبكة خصائص الوجه (FAb-Net) التي يتم تدريبها على غرس عدة إطارات من نفس مسار وجه الفيديو في فضاء بُعدِّي منخفض مشترك. وبهذا النهج، نقدم ثلاثة إسهامات: أولاً، نوضح أن الشبكة يمكنها الاستفادة من المعلومات الواردة من عدة إطارات مصدرية عن طريق التنبؤ بأقنعة الثقة/الانتباه لكل إطار؛ ثانياً، نبين أن استخدام نظام التعلم المنهجي يحسن الغرس المتعلم؛ وأخيراً، نثبت أن الشبكة تتعلم غرس وجه ذي معنى يشفر معلومات حول وضع الرأس، والمعالم الوجهية، والتعبيرات الوجهية، أي خصائص الوجه، دون الحاجة إلى رقابة باستخدام بيانات مصنفة. نحن مماثلون أو أفضل من أفضل الأساليب الذاتية الرقابية في هذه المهام ونقترب من أداء الأساليب الرقابية.