HyperAIHyperAI

Command Palette

Search for a command to run...

PEVL: تحسين الموضع في التدريب الأولي وضبط الدلالة للنماذج البصرية-اللغوية

Yuan Yao Qianyu Chen Ao Zhang Wei Ji Zhiyuan Liu Tat-Seng Chua Maosong Sun

الملخص

أظهر التدريب المسبق للرؤية واللغة (VLP) أداءً مثيرًا للإعجاب في مجموعة واسعة من المهام متعددة الوسائط، حيث أصبحت نماذج VLP التي لا تعتمد على كاشفات الأشياء هي السائدة بسبب كفاءتها الحسابية الفائقة وأدائها التنافسي. ومع ذلك، فإن إزالة كاشفات الأشياء تحرم نماذج VLP أيضًا من قدرتها على النمذجة الصريحة للأجسام، وهي ضرورية لمهام الرؤية واللغة (VL) الحساسة للموقع المختلفة مثل فهم التعبيرات المرجعية و الاستدلال الشائع البصري. لمعالجة هذا التحدي، نقدم PEVL الذي يعزز التدريب المسبق وتuning الدفعات الأولية لنماذج VLP من خلال النمذجة الصريحة لمواقع الأشياء. تحديدًا، يقوم PEVL بإعادة صياغة مواقع الأشياء المتقطعة واللغة في إطار عمل موحد للنمذجة اللغوية، مما يسهل التوافق الصريح بين الرؤية واللغة أثناء التدريب المسبق، ويتيح أيضًا tuning دفعات أولية مرنة لمجموعة متنوعة من المهام اللاحقة. نوضح أن PEVL يمكنه تحقيق أفضل الأداء لنماذج VLP الخالية من الكاشفات في المهام الحساسة للموقع مثل فهم التعبيرات المرجعية وتثبيت العبارات، كما أنه يحسن الأداء في المهام غير الحساسة للموقع باستخدام الإدخالات المؤصلة. نجعل بيانات ومصدر البرمجيات لهذا البحث متاحة للعموم على الرابط https://github.com/thunlp/PEVL.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
PEVL: تحسين الموضع في التدريب الأولي وضبط الدلالة للنماذج البصرية-اللغوية | مستندات | HyperAI