HyperAIHyperAI
منذ 17 أيام

VLN-PETL: التعلم الناقل الفعّال من حيث المعلمات للتنقل البصري واللغوي

Yanyuan Qiao, Zheng Yu, Qi Wu
VLN-PETL: التعلم الناقل الفعّال من حيث المعلمات للتنقل البصري واللغوي
الملخص

شهدت مهام التوجيه البصري واللغوي (VLN) تقدماً سريعاً في الأداء مؤخراً بفضل استخدام النماذج الكبيرة المُدرّبة مسبقاً في مجال الرؤية واللغة. ومع ذلك، أصبح تدريب النموذج المُدرّب مسبقاً بالكامل لكل مهمة VLN ضمنية أمرًا مكلفًا نظرًا لحجم النموذج الكبير. ويُعدّ التركيز البحثي الأخير في التعلم الناقل الفعّال من حيث المعلمات (PETL) واعداً للغاية في تحسين كفاءة تدريب النماذج الكبيرة المُدرّبة مسبقاً على المهام الشائعة في مجال معالجة الصور (CV) واللغة الطبيعية (NLP)، حيث يُستغل معظم المعرفة التمثيلية المضمنة في النموذج المُدرّب مسبقاً مع تدريب مجموعة ضئيلة جداً من المعلمات فقط. ومع ذلك، قد يؤدي استخدام الطرق الحالية لـ PETL بشكل مباشر على مهام VLN الأصعب إلى تدهور ملحوظ في الأداء. ولذلك، نقدم أول دراسة تُعنى باستكشاف طرق PETL في مهام VLN، ونُقدّم طريقة مخصصة لـ VLN تُسمى VLN-PETL. بشكل محدد، قمنا بتصميم وحدتين لـ PETL: وحدة تعزيز التفاعل التاريخي (HIB) ووحدة تعزيز التفاعل عبر الوسائط (CIB). ثم قمنا بدمج هاتين الوحدتين مع عدة طرق موجودة لـ PETL لتكوين VLN-PETL المتكاملة. أظهرت النتائج التجريبية الواسعة على أربع مهام رئيسية في VLN (R2R، REVERIE، NDH، RxR) فعالية طريقة VLN-PETL المقترحة، حيث حققت أداءً مماثلاً أو حتى أفضل من التدريب الكامل، وتفوقت على الطرق الأخرى لـ PETL بفارق ملحوظ.

VLN-PETL: التعلم الناقل الفعّال من حيث المعلمات للتنقل البصري واللغوي | أحدث الأوراق البحثية | HyperAI