HyperAIHyperAI
منذ 11 أيام

RT-2: نماذج الرؤية واللغة والفعل تنقل المعرفة الويبية إلى التحكم الروبوتى

Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski, Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu, Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog, Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang, Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao Lu, Henryk Michalewski, Igor Mordatch, Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi, Pierre Sermanet, Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke, Quan Vuong, Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu, Brianna Zitkovich
RT-2: نماذج الرؤية واللغة والفعل تنقل المعرفة الويبية إلى التحكم الروبوتى
الملخص

ندرس كيفية دمج نماذج الرؤية واللغة التي تم تدريبها على بيانات بحجم الإنترنت مباشرة في التحكم الRobotic من الطرف إلى الطرف لتعزيز التعميم وقدرة التفكير الدلالي الناشئ. هدفنا هو تمكين نموذج واحد مُدرَّب من الطرف إلى الطرف من التعلم في آنٍ واحد لربط ملاحظات الروبوت بالإجراءات، مع الاستفادة من مزايا التدريب المسبق على نطاق واسع في اللغة والبيانات المُقترنة بين الرؤية واللغة المستمدة من الويب. ولتحقيق هذا الهدف، نقترح تنفيذ التدريب الدقيق المشترك (co-fine-tuning) لنماذج الرؤية واللغة الرائدة على بيانات المسارات الروبوتية بالإضافة إلى مهام الرؤية واللغة على نطاق الإنترنت، مثل الإجابة على الأسئلة المرئية. على عكس النهج الأخرى، نقترح وصفة بسيطة وعامة لتحقيق هذا الهدف: لدمج الاستجابات اللغوية الطبيعية والإجراءات الروبوتية في نفس التنسيق، نُعبّر عن الإجراءات كرموز نصية (text tokens) ونُدمجها مباشرة في مجموعة التدريب للنموذج بنفس الطريقة التي تُدمج بها الرموز اللغوية الطبيعية. نشير إلى هذا النوع من النماذج باسم نماذج الرؤية واللغة والإجراء (Vision-Language-Action Models، VLA)، ونُنفّذ مثالًا على مثل هذا النموذج، والذي نسميه RT-2. تُظهر تقييماتنا الواسعة (6000 تجربة تقييم) أن نهجنا يؤدي إلى سياسات روبوتية فعّالة، ويُمكّن RT-2 من اكتساب مجموعة من القدرات الناشئة الناتجة عن التدريب على نطاق الإنترنت، بما في ذلك تحسين ملحوظ في التعميم على كائنات جديدة، والقدرة على فهم الأوامر غير المدرجة في بيانات تدريب الروبوت (مثل وضع كائن على رقم معين أو أيقونة معينة)، والقدرة على إجراء تفكير أساسي استجابةً لأوامر المستخدم (مثل التقاط أصغر أو أكبر كائن، أو الكائن الأقرب إلى كائن آخر). كما نُظهر أن دمج التفكير بالسلسلة (chain of thought reasoning) يُمكّن RT-2 من إجراء تفكير دلالي متعدد المراحل، مثال على ذلك: التعرف على الكائن المناسب لاستخدامه كمطرقة مُستعارة (مثل حجر)، أو تحديد نوع المشروب الأنسب لشخص متعب (مثل مشروب طاقة).

RT-2: نماذج الرؤية واللغة والفعل تنقل المعرفة الويبية إلى التحكم الروبوتى | أحدث الأوراق البحثية | HyperAI