HyperAIHyperAI

Command Palette

Search for a command to run...

كودديفوزر: سياسة التوسع المعززة بالانتباه من خلال الكود المُولد بواسطة VLM لحل غموض التعليمات

Guang Yin Yitong Li Yixuan Wang Dale McConachie Paarth Shah Kunimatsu Hashimoto Huan Zhang Katherine Liu Yunzhu Li

الملخص

التعليمات اللغوية الطبيعية للمهام الروبوتية التلاعبية غالباً ما تظهر الغموض والضبابية. على سبيل المثال، التعليمات "علق كأساً على شجرة الكؤوس" قد تتضمن عدة أفعال صحيحة إذا كان هناك العديد من الكؤوس والفروع للاختيار من بينها. السياسات الحالية المشروطة باللغة تعتمد عادةً على نماذج من النهاية إلى النهاية التي تعالج الفهم الدلالي العالي والإنتاج الفعلي المنخفض بشكل مشترك، مما يمكن أن يؤدي إلى أداء غير مثالي بسبب عدم وجود وحدانية وتفسير. للتعامل مع هذه التحديات، نقدم إطارًا جديدًا للتلاعب الروبوتي يمكنه إنجاز المهام المحددة باللغة الطبيعية المحتملة الغموض. يستخدم هذا الإطار نموذج الرؤية-اللغة (VLM) لتفسير المفاهيم مجردة في التعليمات اللغوية الطبيعية ويولد رمزًا خاصًا بالمهمة - وهو تمثيل وسي قابل للتفسير والتنفيذ. يتفاعل الرمز المنتج مع وحدة الإدراك لإنتاج خرائط انتباه ثلاثية الأبعاد تسلط الضوء على المناطق ذات الصلة بالمهمة من خلال دمج المعلومات المكانية والدلالية، مما يحل الغموض في التعليمات بفعالية. من خلال التجارب الواسعة، حددنا القيود الرئيسية للطرق الحالية للتعلم التقليدي، مثل ضعف التكيف مع التغيرات اللغوية والبيئية. نوضح أن نهجنا يتميز بالتفوق في المهام التلاعبية الصعبة التي تتضمن غموض اللغة والتلاعب الغني باللمس والتفاعلات متعددة الأشياء.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
كودديفوزر: سياسة التوسع المعززة بالانتباه من خلال الكود المُولد بواسطة VLM لحل غموض التعليمات | مستندات | HyperAI