SpatialVLA: استكشاف التمثيلات المكانية لنموذج اللغة البصرية والفعل

في هذا البحث، ندعي أن الفهم المكاني هو النقطة المحورية في التلاعب الروبوتي، ونقترح استخدام SpatialVLA لاستكشاف تمثيلات مكانية فعالة للنموذج الأساسي للروبوت. بصفة خاصة، نقدم ترميز الموضع الثلاثي الأبعاد (Ego3D Position Encoding) لإدخال المعلومات ثلاثية الأبعاد إلى الملاحظات المرئية للنموذج البصري-اللغوي-العملي، ونقترح شبكات الحركة المكانية التكيفية (Adaptive Action Grids) لتمثيل حركات الروبوت المكانية باستخدام شبكات حركات منفصلة تكيفية، مما يسهل تعلم معرفة الحركة المكانية القابلة للتعميم والنقل للتحكم بين الروبوتات. يتم تدريب SpatialVLA أولاً على نموذج رؤية-لغة مع مليون ومائة ألف حلقة تدريب حقيقية للروبوتات، لتعلم سياسة تلاعب عامة عبر بيئات وتasking متعددة للروبوت. بعد التدريب الأولي، يتم تطبيق SpatialVLA مباشرة لأداء العديد من المهام بطريقة صفرية (zero-shot). النتائج البارزة في كل من البيئة المحاكاة والروبوتات الحقيقية تظهر مزاياها في استنتاج مسارات حركة الروبوت المعقدة وقدرتها القوية على التعميم متعدد المهام داخل المجال. كما نوضح أن الشبكات الحركية المكانية التكيفية المقترحة توفر طريقة جديدة وفعالة لتuning النموذج SpatialVLA الذي تم تدريبه بشكل أولي للمحاكاة الجديدة وأوضاع الروبوتات الحقيقية، حيث يتم إعادة تقسيم الشبكات الحركية التي تم تعلمها مسبقًا لالتقاط حركات الروبوت المكانية الخاصة بأوضاع جديدة. النتائج البارزة من التقييمات الواسعة تعكس قدرتها الاستثنائية على التعميم داخل التوزيع والتكيف خارج التوزيع، مما يؤكد الفائدة الحرجة للتمثيلات المكانية الواعية المقترحة لتعلم السياسة العامة للروبوت. سيتم توفير جميع التفاصيل والأكواد كمصدر مفتوح.请注意,上述翻译中的一些术语如“零样本”(zero-shot)、“微调”(fine-tuning)等在阿拉伯语中可能没有完全对应的通用术语,因此我保留了这些术语的英文原词以确保信息的完整性。