SoFar: التوجيه المرتكز على اللغة يُسهم في ربط الاستدلال المكاني بعملية التلاعب بالأشياء

الذكاء المكاني يُعد عنصراً حاسماً في الذكاء الاصطناعي المُتجسّد، حيث يُمكّن الروبوتات من فهم بيئاتها والتفاعل معها. وعلى الرغم من التطورات الحديثة التي عززت قدرة النماذج الرؤية-اللغوية (VLMs) على إدراك مواقع الكائنات والعلاقات المكانية بينها، إلا أنها ما زالت تفتقر إلى القدرة على فهم دقيق لاتجاهات الكائنات — وهو شرط أساسي للمهام التي تتطلب تلاعباً دقيقاً. لمعالجة هذه القيود، لا يكفي التفكير الهندسي فقط، بل يتطلب أيضاً وسيلة تعبيرية وواضحة لتمثيل الاتجاهات. في هذا السياق، نقترح أن اللغة الطبيعية تُوفّر فضاءً تمثيليّاً أكثر مرونة مقارنة بالإطارات القياسية، مما يجعلها مناسبة بشكل خاص لأنظمة الروبوتات التي تعتمد على التعليمات. في هذه الورقة، نقدّم مفهوم "الاتجاه الدلالي"، الذي يُعرّف اتجاهات الكائنات باستخدام اللغة الطبيعية بطريقة لا تعتمد على إطار مرجعي (مثلاً: "اتجاه التوصيل" لمنفذ USB أو "اتجاه المقود" لسكين). ولدعم هذا المفهوم، قمنا ببناء مجموعة بيانات كبيرة بعنوان OrienText300K، تتضمن نماذج ثلاثية الأبعاد مُعلّمة باتجاهات دلالية، تربط بين الفهم الهندسي والدلالات الوظيفية. وبدمج مفهوم الاتجاه الدلالي في نظام VLM، نمكّن الروبوتات من إنتاج إجراءات تلاعب تأخذ بعين الاعتبار كل من المواقع والاتجاهات. وأظهرت تجارب واسعة في البيئات المحاكاة والواقع الحقيقي أن نهجنا يُحسّن بشكل كبير قدرات التلاعب بالروبوتات، حيث بلغت دقة التفاعل 48.7% في مجموعات Open6DOR و74.9% في مجموعة SIMPLER.