HyperAIHyperAI
منذ 11 أيام

وكيل متعدد الوسائط تسلسلي للرؤية واللغة في الروبوتات

وكيل متعدد الوسائط تسلسلي للرؤية واللغة في الروبوتات
الملخص

أحدث التعلم العميق ثورة في قدرتنا على حل المشكلات المعقدة مثل التوجيه البصري-اللغوي (VLN). يتطلب هذا المهمة من الوكيل التحرك نحو هدف بالكامل بناءً على مدخلات حسية بصرية مُعطاة بتعليمات لغوية طبيعية. ومع ذلك، صُنّف العمل السابق هذه المهمة كرسم بياني للتنقل بفضاء إجراءات منفصلة. في هذا العمل، نُبعِد الوكيل عن الرسم البياني للتنقل ونُقدّم إعدادًا أكثر تعقيدًا لـ VLN في بيئات ثلاثية الأبعاد مستردة بشكل مستمر. يُعد الإعداد المقترح، Robo-VLN، أكثر تشابهًا مع تحديات التنقل في العالم الحقيقي. تتميز مهام Robo-VLN بطول مسارات أطول، وفضاء إجراءات مستمر، وتحديات مثل العوائق. نقدّم مجموعة من الخطوط المرجعية المستوحاة من أحدث الأعمال في VLN المنفصلة، ونُظهر أن هذه الخطوط أقل فعالية في هذه المهمة. كما نقترح أن تقسيم المهمة إلى سياسات متخصصة على المستويين العالي والمنخفض يمكن أن يعالج هذه المهمة بكفاءة أكبر. وباستخدام تجارب واسعة النطاق، نُظهر أن استخدام اتخاذ القرار الطبقي، والتدريب المُنظَّم بشكل وحدات، وفصل الاستدلال عن التقليد، يؤدي إلى تفوق الوكيل الهرمي المتقاطع (HCM) المقترح على جميع المعايير الأساسية، ويُحدّد معيارًا جديدًا لـ Robo-VLN.

وكيل متعدد الوسائط تسلسلي للرؤية واللغة في الروبوتات | أحدث الأوراق البحثية | HyperAI