HyperAIHyperAI

Command Palette

Search for a command to run...

SoFar: التوجيه المرتكز على اللغة يُسهم في ربط الاستدلال المكاني بعملية التلاعب بالأشياء

الملخص

الذكاء المكاني يُعد عنصراً حاسماً في الذكاء الاصطناعي المُتجسّد، حيث يُمكّن الروبوتات من فهم بيئاتها والتفاعل معها. وعلى الرغم من التطورات الحديثة التي عززت قدرة النماذج الرؤية-اللغوية (VLMs) على إدراك مواقع الكائنات والعلاقات المكانية بينها، إلا أنها ما زالت تفتقر إلى القدرة على فهم دقيق لاتجاهات الكائنات — وهو شرط أساسي للمهام التي تتطلب تلاعباً دقيقاً. لمعالجة هذه القيود، لا يكفي التفكير الهندسي فقط، بل يتطلب أيضاً وسيلة تعبيرية وواضحة لتمثيل الاتجاهات. في هذا السياق، نقترح أن اللغة الطبيعية تُوفّر فضاءً تمثيليّاً أكثر مرونة مقارنة بالإطارات القياسية، مما يجعلها مناسبة بشكل خاص لأنظمة الروبوتات التي تعتمد على التعليمات. في هذه الورقة، نقدّم مفهوم "الاتجاه الدلالي"، الذي يُعرّف اتجاهات الكائنات باستخدام اللغة الطبيعية بطريقة لا تعتمد على إطار مرجعي (مثلاً: "اتجاه التوصيل" لمنفذ USB أو "اتجاه المقود" لسكين). ولدعم هذا المفهوم، قمنا ببناء مجموعة بيانات كبيرة بعنوان OrienText300K، تتضمن نماذج ثلاثية الأبعاد مُعلّمة باتجاهات دلالية، تربط بين الفهم الهندسي والدلالات الوظيفية. وبدمج مفهوم الاتجاه الدلالي في نظام VLM، نمكّن الروبوتات من إنتاج إجراءات تلاعب تأخذ بعين الاعتبار كل من المواقع والاتجاهات. وأظهرت تجارب واسعة في البيئات المحاكاة والواقع الحقيقي أن نهجنا يُحسّن بشكل كبير قدرات التلاعب بالروبوتات، حيث بلغت دقة التفاعل 48.7% في مجموعات Open6DOR و74.9% في مجموعة SIMPLER.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp