HyperAIHyperAI
منذ 2 أشهر

PEVL: تحسين الموضع في التدريب الأولي وضبط الدلالة للنماذج البصرية-اللغوية

Yuan Yao; Qianyu Chen; Ao Zhang; Wei Ji; Zhiyuan Liu; Tat-Seng Chua; Maosong Sun
PEVL: تحسين الموضع في التدريب الأولي وضبط الدلالة للنماذج البصرية-اللغوية
الملخص

أظهر التدريب المسبق للرؤية واللغة (VLP) أداءً مثيرًا للإعجاب في مجموعة واسعة من المهام متعددة الوسائط، حيث أصبحت نماذج VLP التي لا تعتمد على كاشفات الأشياء هي السائدة بسبب كفاءتها الحسابية الفائقة وأدائها التنافسي. ومع ذلك، فإن إزالة كاشفات الأشياء تحرم نماذج VLP أيضًا من قدرتها على النمذجة الصريحة للأجسام، وهي ضرورية لمهام الرؤية واللغة (VL) الحساسة للموقع المختلفة مثل فهم التعبيرات المرجعية و الاستدلال الشائع البصري. لمعالجة هذا التحدي، نقدم PEVL الذي يعزز التدريب المسبق وتuning الدفعات الأولية لنماذج VLP من خلال النمذجة الصريحة لمواقع الأشياء. تحديدًا، يقوم PEVL بإعادة صياغة مواقع الأشياء المتقطعة واللغة في إطار عمل موحد للنمذجة اللغوية، مما يسهل التوافق الصريح بين الرؤية واللغة أثناء التدريب المسبق، ويتيح أيضًا tuning دفعات أولية مرنة لمجموعة متنوعة من المهام اللاحقة. نوضح أن PEVL يمكنه تحقيق أفضل الأداء لنماذج VLP الخالية من الكاشفات في المهام الحساسة للموقع مثل فهم التعبيرات المرجعية وتثبيت العبارات، كما أنه يحسن الأداء في المهام غير الحساسة للموقع باستخدام الإدخالات المؤصلة. نجعل بيانات ومصدر البرمجيات لهذا البحث متاحة للعموم على الرابط https://github.com/thunlp/PEVL.

PEVL: تحسين الموضع في التدريب الأولي وضبط الدلالة للنماذج البصرية-اللغوية | أحدث الأوراق البحثية | HyperAI