HyperAI
منذ 10 أيام

كودديفوزر: سياسة التوسع المعززة بالانتباه من خلال الكود المُولد بواسطة VLM لحل غموض التعليمات

Guang Yin, Yitong Li, Yixuan Wang, Dale McConachie, Paarth Shah, Kunimatsu Hashimoto, Huan Zhang, Katherine Liu, Yunzhu Li
كودديفوزر: سياسة التوسع المعززة بالانتباه من خلال الكود المُولد بواسطة VLM لحل غموض التعليمات
الملخص

التعليمات اللغوية الطبيعية للمهام الروبوتية التلاعبية غالباً ما تظهر الغموض والضبابية. على سبيل المثال، التعليمات "علق كأساً على شجرة الكؤوس" قد تتضمن عدة أفعال صحيحة إذا كان هناك العديد من الكؤوس والفروع للاختيار من بينها. السياسات الحالية المشروطة باللغة تعتمد عادةً على نماذج من النهاية إلى النهاية التي تعالج الفهم الدلالي العالي والإنتاج الفعلي المنخفض بشكل مشترك، مما يمكن أن يؤدي إلى أداء غير مثالي بسبب عدم وجود وحدانية وتفسير. للتعامل مع هذه التحديات، نقدم إطارًا جديدًا للتلاعب الروبوتي يمكنه إنجاز المهام المحددة باللغة الطبيعية المحتملة الغموض. يستخدم هذا الإطار نموذج الرؤية-اللغة (VLM) لتفسير المفاهيم مجردة في التعليمات اللغوية الطبيعية ويولد رمزًا خاصًا بالمهمة - وهو تمثيل وسي قابل للتفسير والتنفيذ. يتفاعل الرمز المنتج مع وحدة الإدراك لإنتاج خرائط انتباه ثلاثية الأبعاد تسلط الضوء على المناطق ذات الصلة بالمهمة من خلال دمج المعلومات المكانية والدلالية، مما يحل الغموض في التعليمات بفعالية. من خلال التجارب الواسعة، حددنا القيود الرئيسية للطرق الحالية للتعلم التقليدي، مثل ضعف التكيف مع التغيرات اللغوية والبيئية. نوضح أن نهجنا يتميز بالتفوق في المهام التلاعبية الصعبة التي تتضمن غموض اللغة والتلاعب الغني باللمس والتفاعلات متعددة الأشياء.