HyperAIHyperAI

Command Palette

Search for a command to run...

إلى تعلُّم وكيل عام لمهام التوجيه البصري-اللغوي من خلال التدريب المسبق

Weituo Hao Chunyuan Li Xiujun Li Lawrence Carin Jianfeng Gao

الملخص

التعلم لاستكشاف بيئة مرئية وفقًا لتوجيهات بلغة طبيعية يُعد مهمة صعبة، نظرًا لتنوع المدخلات متعددة الوسائط التي يتلقاها الوكيل، وندرة بيانات التدريب في المهام الجديدة غالبًا. في هذه الورقة، نقدّم أول نموذج لتدريب مسبق وضبط دقيق (pre-training and fine-tuning) للمهام المتعلقة بالتنقل البصري واللغوي (VLN). من خلال التدريب على كمية كبيرة من ثلاثيات الصورة-النص-الإجراء بطريقة تعلّم ذاتي (self-supervised)، يُقدّم النموذج المُدرّب مسبقًا تمثيلات عامة للبيئات البصرية والتوجيهات اللغوية. ويمكن استخدامه بسهولة كمكوّن جاهز (drop-in) في الإطارات الحالية لمهام VLN، ما يؤدي إلى تطوير الوكيل المُقترح المُسمّى Prevalent. ويُظهر هذا الوكيل كفاءة أعلى في التعلّم ضمن مهام جديدة، وتميّزًا أفضل في التعميم داخل بيئات لم يُرَتَّب لها من قبل. وقد تم التحقق من الأداء على ثلاث مهام لـ VLN. وفي معيار Room-to-Room، تُحسّن النموذج المُقدّم من 47% إلى 51% في معدل النجاح المُوزون حسب طول المسار. علاوةً على ذلك، تُبيّن التمثيلات المُكتسبة قابليتها للنقل إلى مهام VLN الأخرى. وفي مهامين حديثين، وهما التنقل البصري والمحادثة (vision-and-dialog navigation) و"ساعدني يا آنا!" (Help, Anna!)، يُحقّق Prevalent تحسينًا كبيرًا مقارنة بالطرق الحالية، ويُسجّل حالة جديدة من الأداء القياسي (state-of-the-art).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp