RT-2: نماذج الرؤية واللغة والفعل تنقل المعرفة الويبية إلى التحكم الروبوتى

ندرس كيفية دمج نماذج الرؤية واللغة التي تم تدريبها على بيانات بحجم الإنترنت مباشرة في التحكم الRobotic من الطرف إلى الطرف لتعزيز التعميم وقدرة التفكير الدلالي الناشئ. هدفنا هو تمكين نموذج واحد مُدرَّب من الطرف إلى الطرف من التعلم في آنٍ واحد لربط ملاحظات الروبوت بالإجراءات، مع الاستفادة من مزايا التدريب المسبق على نطاق واسع في اللغة والبيانات المُقترنة بين الرؤية واللغة المستمدة من الويب. ولتحقيق هذا الهدف، نقترح تنفيذ التدريب الدقيق المشترك (co-fine-tuning) لنماذج الرؤية واللغة الرائدة على بيانات المسارات الروبوتية بالإضافة إلى مهام الرؤية واللغة على نطاق الإنترنت، مثل الإجابة على الأسئلة المرئية. على عكس النهج الأخرى، نقترح وصفة بسيطة وعامة لتحقيق هذا الهدف: لدمج الاستجابات اللغوية الطبيعية والإجراءات الروبوتية في نفس التنسيق، نُعبّر عن الإجراءات كرموز نصية (text tokens) ونُدمجها مباشرة في مجموعة التدريب للنموذج بنفس الطريقة التي تُدمج بها الرموز اللغوية الطبيعية. نشير إلى هذا النوع من النماذج باسم نماذج الرؤية واللغة والإجراء (Vision-Language-Action Models، VLA)، ونُنفّذ مثالًا على مثل هذا النموذج، والذي نسميه RT-2. تُظهر تقييماتنا الواسعة (6000 تجربة تقييم) أن نهجنا يؤدي إلى سياسات روبوتية فعّالة، ويُمكّن RT-2 من اكتساب مجموعة من القدرات الناشئة الناتجة عن التدريب على نطاق الإنترنت، بما في ذلك تحسين ملحوظ في التعميم على كائنات جديدة، والقدرة على فهم الأوامر غير المدرجة في بيانات تدريب الروبوت (مثل وضع كائن على رقم معين أو أيقونة معينة)، والقدرة على إجراء تفكير أساسي استجابةً لأوامر المستخدم (مثل التقاط أصغر أو أكبر كائن، أو الكائن الأقرب إلى كائن آخر). كما نُظهر أن دمج التفكير بالسلسلة (chain of thought reasoning) يُمكّن RT-2 من إجراء تفكير دلالي متعدد المراحل، مثال على ذلك: التعرف على الكائن المناسب لاستخدامه كمطرقة مُستعارة (مثل حجر)، أو تحديد نوع المشروب الأنسب لشخص متعب (مثل مشروب طاقة).