HyperAIHyperAI
منذ 16 أيام

التعلم العام لتمثيل الوجه بطريقة بصرية-لغوية

Yinglin Zheng, Hao Yang, Ting Zhang, Jianmin Bao, Dongdong Chen, Yangyu Huang, Lu Yuan, Dong Chen, Ming Zeng, Fang Wen
التعلم العام لتمثيل الوجه بطريقة بصرية-لغوية
الملخص

كيف يمكن تعلم تمثيل وجه عالمي يعزز جميع مهام تحليل الوجه؟ تقدم هذه الورقة خطوة نحو تحقيق هذا الهدف. في هذه الورقة، ندرس أداء نماذج ما قبل التدريب في مهام تحليل الوجه، ونقدم إطارًا يُسمى FaRL (التعلم العام للتمثيل الوجهي بطريقة بصرية-لغوية) لتعزيز التمثيل الوجهي. من جهة، يعتمد الإطار على دالة فقدان تقابلية (contrastive loss) لاستخلاص المعاني الدلالية عالية المستوى من أزواج الصور والنصوص. ومن جهة أخرى، نقترح استكشاف المعلومات منخفضة المستوى بشكل متزامن لتحسين التمثيل الوجهي أكثر، من خلال إدخال نموذج ترميز الصورة المُغطاة (masked image modeling). قمنا بعملية التدريب المسبق على مجموعة بيانات LAION-FACE، التي تحتوي على كميات كبيرة من أزواج الصور والنصوص المتعلقة بالوجوه، ثم قمنا بتقييم قدرة التمثيل على مهام تطبيقية متعددة. أظهرت النتائج أن FaRL تحقق أداءً أفضل في التحويل (transfer performance) مقارنة بالنماذج المُدرَّبة مسبقًا السابقة. كما تأكدت ميزته في البيئات ذات البيانات المحدودة. والأهم من ذلك، تفوق نموذجنا على أحدث الطرق في مهام تحليل الوجه، بما في ذلك تحليل الوجه (face parsing) ومحاذاة الوجه (face alignment).