HyperAIHyperAI
منذ 19 أيام

فكّر عالميًا، واعمل محليًا: تحويلة رسم بياني مزدوجة المقياس لتنقل البصر واللغة

Shizhe Chen, Pierre-Louis Guhur, Makarand Tapaswi, Cordelia Schmid, Ivan Laptev
فكّر عالميًا، واعمل محليًا: تحويلة رسم بياني مزدوجة المقياس لتنقل البصر واللغة
الملخص

الاستجابة للتعليمات اللغوية للتنقل في بيئات غير مألوفة تمثل مشكلة صعبة للوكلاء الذاتيين المُجسمين. فليس على الوكيل فقط أن يربط اللغة بالمشاهد البصرية، بل يجب أيضًا أن يستكشف البيئة للوصول إلى الهدف المطلوب. في هذه الدراسة، نقترح نموذجًا يُسمى "مُحول الرسم البياني ثنائي المقياس" (DUET) لتنفيذ التخطيط للإجراءات طويلة الأمد والفهم المتقاطع الدقيق بين الوسائط بشكل مشترك. نُنشئ خريطة توافقيّة تلقائيًا لتمكين استكشاف فعّال في فضاء الإجراءات العالمي. ولتحقيق التوازن بين تعقيد استنتاج الإجراءات في فضاء إجرائي واسع والربط الدقيق للغة، ندمج ديناميكيًا بين ترميز ذي مقياس دقيق على الملاحظات المحلية وترميز ذي مقياس خشن على الخريطة العالمية باستخدام مُحولات الرسم البياني. يتفوّق النموذج المقترح، DUET، بشكل كبير على أحدث الأساليب في معايير التوجيه المستندة إلى الرؤية واللغة (VLN) REVERIE وSOON. كما يحسّن معدل النجاح في معيار VLN الدقيق R2R.

فكّر عالميًا، واعمل محليًا: تحويلة رسم بياني مزدوجة المقياس لتنقل البصر واللغة | الأوراق البحثية | HyperAI