PLIP: التدريب المسبق للغة والصورة لتعلم تمثيل الشخص

التدريب المسبق للغة والصورة هو تقنية فعالة لتعلم التمثيلات القوية في المجالات العامة. ومع ذلك، عند الانتقال مباشرة إلى تعلم تمثيل الشخص، تعاني هذه الأساليب التدريبية العامة من أداء غير مرضٍ. السبب في ذلك أنها تتجاهل الخصائص الحرجة المتعلقة بالشخص، مثل الصفات الدقيقة والمعرف. لحل هذه المشكلة، نقترح إطارًا جديدًا للتدريب المسبق للغة والصورة لتعلم تمثيل الشخص، يُطلق عليه PLIP (تمثيل اللغة والصورة للأشخاص). بصفة خاصة، نصمم بعناية ثلاث مهمات أولية: 1) التلوين الصوري بقيادة النص، والتي تهدف إلى إنشاء علاقة مطابقة بين المناطق الصورية المرتبطة بالشخص والعبارات النصية الدقيقة للألوان والأجزاء. 2) التنبؤ بالصفات بقيادة الصورة، والتي تهدف إلى استخراج المعلومات الدقيقة عن صفات جسم الشخص في الصورة؛ و3) التباين البصري-اللغوي المستند إلى الهوية، والذي يهدف إلى ربط التمثيلات متعددة الوسائط على مستوى الهوية بدلاً من مستوى الحالة الفردية. علاوة على ذلك، لتنفيذ إطارنا للتدريب المسبق، قمنا بإنشاء مجموعة بيانات كبيرة الحجم تحتوي على أزواج صورية-نصية باسم SYNTH-PEDES (مجموعة بيانات الأشخاص المصنعة بشكل تلقائي) عن طريق توليد شروح نصية آليًا. نقوم بتدريب PLIP مسبقًا على SYNTH-PEDES وتقييم نماذجنا عبر مهام ثانوية مركزها الشخص. لا يقتصر الأمر على أن PLIP يحسن بشكل كبير الأساليب الموجودة في جميع هذه المهام فحسب، بل إنه يظهر أيضًا قدرة كبيرة في الإعدادات ذات الطلقات الصفرية والتعميم النموذجي. سيتم إطلاق الكود ومجموعة البيانات والأوزان في الرابط التالي: ~\url{https://github.com/Zplusdragon/PLIP}