HyperAIHyperAI
منذ 11 أيام

SoFar: التوجيه المرتكز على اللغة يُسهم في ربط الاستدلال المكاني بعملية التلاعب بالأشياء

Zekun Qi, Wenyao Zhang, Yufei Ding, Runpei Dong, Xinqiang Yu, Jingwen Li, Lingyun Xu, Baoyu Li, Xialin He, Guofan Fan, Jiazhao Zhang, Jiawei He, Jiayuan Gu, Xin Jin, Kaisheng Ma, Zhizheng Zhang, He Wang, Li Yi
SoFar: التوجيه المرتكز على اللغة يُسهم في ربط الاستدلال المكاني بعملية التلاعب بالأشياء
الملخص

الذكاء المكاني يُعد عنصراً حاسماً في الذكاء الاصطناعي المُتجسّد، حيث يُمكّن الروبوتات من فهم بيئاتها والتفاعل معها. وعلى الرغم من التطورات الحديثة التي عززت قدرة النماذج الرؤية-اللغوية (VLMs) على إدراك مواقع الكائنات والعلاقات المكانية بينها، إلا أنها ما زالت تفتقر إلى القدرة على فهم دقيق لاتجاهات الكائنات — وهو شرط أساسي للمهام التي تتطلب تلاعباً دقيقاً. لمعالجة هذه القيود، لا يكفي التفكير الهندسي فقط، بل يتطلب أيضاً وسيلة تعبيرية وواضحة لتمثيل الاتجاهات. في هذا السياق، نقترح أن اللغة الطبيعية تُوفّر فضاءً تمثيليّاً أكثر مرونة مقارنة بالإطارات القياسية، مما يجعلها مناسبة بشكل خاص لأنظمة الروبوتات التي تعتمد على التعليمات. في هذه الورقة، نقدّم مفهوم "الاتجاه الدلالي"، الذي يُعرّف اتجاهات الكائنات باستخدام اللغة الطبيعية بطريقة لا تعتمد على إطار مرجعي (مثلاً: "اتجاه التوصيل" لمنفذ USB أو "اتجاه المقود" لسكين). ولدعم هذا المفهوم، قمنا ببناء مجموعة بيانات كبيرة بعنوان OrienText300K، تتضمن نماذج ثلاثية الأبعاد مُعلّمة باتجاهات دلالية، تربط بين الفهم الهندسي والدلالات الوظيفية. وبدمج مفهوم الاتجاه الدلالي في نظام VLM، نمكّن الروبوتات من إنتاج إجراءات تلاعب تأخذ بعين الاعتبار كل من المواقع والاتجاهات. وأظهرت تجارب واسعة في البيئات المحاكاة والواقع الحقيقي أن نهجنا يُحسّن بشكل كبير قدرات التلاعب بالروبوتات، حيث بلغت دقة التفاعل 48.7% في مجموعات Open6DOR و74.9% في مجموعة SIMPLER.

SoFar: التوجيه المرتكز على اللغة يُسهم في ربط الاستدلال المكاني بعملية التلاعب بالأشياء | أحدث الأوراق البحثية | HyperAI