HyperAIHyperAI

Command Palette

Search for a command to run...

مسار جديد: توسيع التوجيه البصري واللغوي باستخدام التعليم التمثيلي وتعلم المحاكاة

Aishwarya Kamath Peter Anderson Su Wang Jing Yu Koh Alexander Ku Austin Waters Yinfei Yang Jason Baldridge Zarana Parekh

الملخص

أظهرت الدراسات الحديثة في مجال التنقل البصري واللغوي (VLN) تدريب وكلاء التعلم بالتعزيز (RL) على تنفيذ تعليمات التنقل باللغة الطبيعية في بيئات واقعية بصريًا، كخطوة نحو تطوير روبوتات قادرة على اتباع التعليمات البشرية. ومع ذلك، وبسبب ندرة بيانات التعليمات البشرية وتنوع محدود في البيئات التدريبية، لا يزال هؤلاء الوكلاء يواجهون صعوبات كبيرة في التماسك اللغوي المعقد والفهم الفراغي للغة. وقد تم استكشاف التدريب المسبق على مجموعات بيانات كبيرة من النصوص والنصوص-الصور المستمدة من الإنترنت بشكل واسع، لكن التحسينات الناتجة كانت محدودة. نحن نستكشف توسيعًا على نطاق واسع باستخدام تعليمات مُصَنَّعة. نأخذ أكثر من 500 بيئة داخلية تم التقاطها باستخدام لقطات بانورامية بزاوية 360 درجة بشكل كثيف، ونُنشئ مسارات للتنقل عبر هذه اللقطات، ثم نُولِّد تعليمات مبنية على الرؤية لكل مسار باستخدام "ماركي" (Marky)، وهي أداة مُولِّدة عالية الجودة للتعليمات متعددة اللغات الخاصة بالتنقل. كما نُولِّد مشاهد صور من وجهات نظر جديدة باستخدام شبكة توليدية للصور (image-to-image GAN). يُنتج بذلك مجموعة بيانات مكونة من 4.2 مليون زوج من التعليمات والمسارات، وهي أكبر بمرتين من مجموعات البيانات البشرية المُعلَّمة الحالية، وتشمل تنوعًا أوسع في البيئات والزوايا المرئية. ولتمكين الاستفادة الفعّالة من هذه الكمية الهائلة من البيانات، نُدرّب وكيلًا بسيطًا يعتمد على نموذج الترانسفورمر باستخدام التعلم بالإماثة (imitation learning). على مجموعة بيانات RxR الصعبة، يتفوّق نهجنا على جميع الوكلاء القائمين على التعلم بالتعزيز الحالية، حيث يُحسّن أداء التماسك اللغوي (NDTW) من 71.1 إلى 79.1 في البيئات المرئية المعروفة، ومن 64.6 إلى 66.8 في البيئات غير المعروفة أثناء الاختبار. تُشير أعمالنا إلى طريق جديد لتحسين وكالات اتباع التعليمات، مع التركيز على التعلم بالإماثة على نطاق واسع وتطوير القدرات في إنشاء التعليمات الاصطناعية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp