HyperAIHyperAI

Command Palette

Search for a command to run...

VLN-PETL: التعلم الناقل الفعّال من حيث المعلمات للتنقل البصري واللغوي

Yanyuan Qiao Zheng Yu Qi Wu

الملخص

شهدت مهام التوجيه البصري واللغوي (VLN) تقدماً سريعاً في الأداء مؤخراً بفضل استخدام النماذج الكبيرة المُدرّبة مسبقاً في مجال الرؤية واللغة. ومع ذلك، أصبح تدريب النموذج المُدرّب مسبقاً بالكامل لكل مهمة VLN ضمنية أمرًا مكلفًا نظرًا لحجم النموذج الكبير. ويُعدّ التركيز البحثي الأخير في التعلم الناقل الفعّال من حيث المعلمات (PETL) واعداً للغاية في تحسين كفاءة تدريب النماذج الكبيرة المُدرّبة مسبقاً على المهام الشائعة في مجال معالجة الصور (CV) واللغة الطبيعية (NLP)، حيث يُستغل معظم المعرفة التمثيلية المضمنة في النموذج المُدرّب مسبقاً مع تدريب مجموعة ضئيلة جداً من المعلمات فقط. ومع ذلك، قد يؤدي استخدام الطرق الحالية لـ PETL بشكل مباشر على مهام VLN الأصعب إلى تدهور ملحوظ في الأداء. ولذلك، نقدم أول دراسة تُعنى باستكشاف طرق PETL في مهام VLN، ونُقدّم طريقة مخصصة لـ VLN تُسمى VLN-PETL. بشكل محدد، قمنا بتصميم وحدتين لـ PETL: وحدة تعزيز التفاعل التاريخي (HIB) ووحدة تعزيز التفاعل عبر الوسائط (CIB). ثم قمنا بدمج هاتين الوحدتين مع عدة طرق موجودة لـ PETL لتكوين VLN-PETL المتكاملة. أظهرت النتائج التجريبية الواسعة على أربع مهام رئيسية في VLN (R2R، REVERIE، NDH، RxR) فعالية طريقة VLN-PETL المقترحة، حيث حققت أداءً مماثلاً أو حتى أفضل من التدريب الكامل، وتفوقت على الطرق الأخرى لـ PETL بفارق ملحوظ.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp