HyperAIHyperAI
منذ 2 أشهر

تعلم التنقل في بيئات غير مألوفة: الترجمة العكسية مع إسقاط البيئة

Hao Tan; Licheng Yu; Mohit Bansal
تعلم التنقل في بيئات غير مألوفة: الترجمة العكسية مع إسقاط البيئة
الملخص

الهدف الكبير في مجال الذكاء الاصطناعي هو بناء روبوت يمكنه التنقل بدقة استنادًا إلى تعليمات اللغة الطبيعية، مما يتطلب من الوكيل أن يدرك المشهد، ويفهم ويحدد اللغة، ويعمل في البيئة الحقيقية. أحد التحديات الرئيسية هنا هو تعلم التنقل في بيئات جديدة لم يتم رؤيتها أثناء التدريب. أغلب النهج الموجودة تؤدي بشكل مأساوي أسوأ في البيئات غير المألوفة مقارنة بالبيئات المألوفة. في هذا البحث، نقدم وكيلًا قابلًا للتعميم للتنقل. يتم تدريب وكيلنا على مرحلتين. المرحلة الأولى هي التدريب عبر التعلم التقليدي والتعزيزي المختلط، مع الجمع بين الفوائد من كل من التحسين خارج السياسة وداخل السياسة. المرحلة الثانية هي التعديل الدقيق عبر ثلاثيات جديدة تم تقديمها حديثًا (البيئة، المسار، التعليمات). لتقديم هذه الثلاثيات غير المألوفة، نقترح طريقة بسيطة ولكن فعالة تسمى "إسقاط البيئة" (environmental dropout) لتقليد البيئات غير المألوفة، والتي تتغلب على مشكلة محدودية تنوع البيئات المألوفة. بعد ذلك، نطبق التعلم شبه الإشرافي (عبر إعادة الترجمة) على هذه البيئات التي تم إسقاطها لتوليد مسارات وتعليمات جديدة. عمليًا، نظهر أن وكيلنا أفضل بكثير في قابلية التعميم عند التعديل الدقيق باستخدام هذه الثلاثيات، حيث يتفوق على أفضل النهج الحالية بمarge كبير في مجموعة الاختبار الخاصة الغير مألوفة لمهام Room-to-Room، ويحقق الرتبة الأولى على لوحة النقاط.注:在最后一句中,“marge”一词可能是原文中的拼写错误,正确的应该是“margin”。这里为了忠实于原文,保留了“marge”,但在实际应用中建议更正为“margin”。

تعلم التنقل في بيئات غير مألوفة: الترجمة العكسية مع إسقاط البيئة | أحدث الأوراق البحثية | HyperAI