HyperAIHyperAI

Command Palette

Search for a command to run...

فكّر عالميًا، واعمل محليًا: تحويلة رسم بياني مزدوجة المقياس لتنقل البصر واللغة

Shizhe Chen Pierre-Louis Guhur Makarand Tapaswi Cordelia Schmid Ivan Laptev

الملخص

الاستجابة للتعليمات اللغوية للتنقل في بيئات غير مألوفة تمثل مشكلة صعبة للوكلاء الذاتيين المُجسمين. فليس على الوكيل فقط أن يربط اللغة بالمشاهد البصرية، بل يجب أيضًا أن يستكشف البيئة للوصول إلى الهدف المطلوب. في هذه الدراسة، نقترح نموذجًا يُسمى "مُحول الرسم البياني ثنائي المقياس" (DUET) لتنفيذ التخطيط للإجراءات طويلة الأمد والفهم المتقاطع الدقيق بين الوسائط بشكل مشترك. نُنشئ خريطة توافقيّة تلقائيًا لتمكين استكشاف فعّال في فضاء الإجراءات العالمي. ولتحقيق التوازن بين تعقيد استنتاج الإجراءات في فضاء إجرائي واسع والربط الدقيق للغة، ندمج ديناميكيًا بين ترميز ذي مقياس دقيق على الملاحظات المحلية وترميز ذي مقياس خشن على الخريطة العالمية باستخدام مُحولات الرسم البياني. يتفوّق النموذج المقترح، DUET، بشكل كبير على أحدث الأساليب في معايير التوجيه المستندة إلى الرؤية واللغة (VLN) REVERIE وSOON. كما يحسّن معدل النجاح في معيار VLN الدقيق R2R.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
فكّر عالميًا، واعمل محليًا: تحويلة رسم بياني مزدوجة المقياس لتنقل البصر واللغة | مستندات | HyperAI