HyperAIHyperAI

Command Palette

Search for a command to run...

PLIP: التدريب المسبق للغة والصورة لتعلم تمثيل الشخص

Jialong Zuo Jiahao Hong Feng Zhang Changqian Yu Hanyu Zhou Changxin Gao Nong Sang Jingdong Wang

الملخص

التدريب المسبق للغة والصورة هو تقنية فعالة لتعلم التمثيلات القوية في المجالات العامة. ومع ذلك، عند الانتقال مباشرة إلى تعلم تمثيل الشخص، تعاني هذه الأساليب التدريبية العامة من أداء غير مرضٍ. السبب في ذلك أنها تتجاهل الخصائص الحرجة المتعلقة بالشخص، مثل الصفات الدقيقة والمعرف. لحل هذه المشكلة، نقترح إطارًا جديدًا للتدريب المسبق للغة والصورة لتعلم تمثيل الشخص، يُطلق عليه PLIP (تمثيل اللغة والصورة للأشخاص). بصفة خاصة، نصمم بعناية ثلاث مهمات أولية: 1) التلوين الصوري بقيادة النص، والتي تهدف إلى إنشاء علاقة مطابقة بين المناطق الصورية المرتبطة بالشخص والعبارات النصية الدقيقة للألوان والأجزاء. 2) التنبؤ بالصفات بقيادة الصورة، والتي تهدف إلى استخراج المعلومات الدقيقة عن صفات جسم الشخص في الصورة؛ و3) التباين البصري-اللغوي المستند إلى الهوية، والذي يهدف إلى ربط التمثيلات متعددة الوسائط على مستوى الهوية بدلاً من مستوى الحالة الفردية. علاوة على ذلك، لتنفيذ إطارنا للتدريب المسبق، قمنا بإنشاء مجموعة بيانات كبيرة الحجم تحتوي على أزواج صورية-نصية باسم SYNTH-PEDES (مجموعة بيانات الأشخاص المصنعة بشكل تلقائي) عن طريق توليد شروح نصية آليًا. نقوم بتدريب PLIP مسبقًا على SYNTH-PEDES وتقييم نماذجنا عبر مهام ثانوية مركزها الشخص. لا يقتصر الأمر على أن PLIP يحسن بشكل كبير الأساليب الموجودة في جميع هذه المهام فحسب، بل إنه يظهر أيضًا قدرة كبيرة في الإعدادات ذات الطلقات الصفرية والتعميم النموذجي. سيتم إطلاق الكود ومجموعة البيانات والأوزان في الرابط التالي: ~\url{https://github.com/Zplusdragon/PLIP}


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
PLIP: التدريب المسبق للغة والصورة لتعلم تمثيل الشخص | مستندات | HyperAI