Command Palette
Search for a command to run...
EmbodiedOneVision: التدريب المتناوب للرؤية والنص والعمل لتحكم عام في الروبوتات

الملخص
إن القدرة البشرية على أداء التفكير متعدد الوسائط والتفاعل المادي بسلاسة في العالم المفتوح يُعد هدفًا جوهريًا لأنظمة الذكاء المُدمج ذات الغرض العام. وقد أظهرت النماذج الحديثة التي تجمع بين الرؤية واللغة والفعل (VLA)، والتي تُدرَّب بشكل متكامل على بيانات روبوتية ومرئية-نصية ضخمة، تقدمًا ملحوظًا في التحكم العام بالروبوتات. ومع ذلك، ما زالت هذه النماذج تفشل في تحقيق المرونة البشرية في التفكير المتناوب والتفاعل. في هذا العمل، نقدّم EO-Robotics، الذي يتكون من نموذج EO-1 وبيانات EO-Data1.5M. يُعد نموذج EO-1 نموذجًا أساسيًا موحدًا مُدمجًا، ويحقق أداءً متفوقًا في التفكير متعدد الوسائط المُدمج والتحكم بالروبوتات من خلال تدريب متكامل بين الرؤية والنص والفعل. وتم بناء EO-1 على دعامتين رئيسيتين: (أ) بنية موحدة تُعالج مدخلات متعددة الوسائط بشكل غير تمييزي (الصورة، النص، الفيديو، والفعل)، و(ب) مجموعة بيانات ضخمة وعالية الجودة للتفكير متعدد الوسائط المُدمج، تُسمى EO-Data1.5M، والتي تحتوي على أكثر من مليون ونصف عينة، مع التركيز على فهم التفاعل المتناوب بين الرؤية والنص والفعل. تم تدريب EO-1 من خلال التآزر بين التشفير التتابعي (auto-regressive decoding) وتقنيات إزالة الضوضاء المبنية على تطابق التدفق (flow matching denoising) على بيانات EO-Data1.5M، مما يمكّن من توليد إجراءات روبوتية سلسة والتفكير متعدد الوسائط المُدمج. وقد أظهرت تجارب واسعة الفعالية الناتجة عن التعلم المتناوب بين الرؤية والنص والفعل في فهم العالم المفتوح والتعميم، وتم التحقق من ذلك عبر مجموعة متنوعة من المهام طويلة المدى والمهام الدقيقة في التلاعب، ضمن أشكال متعددة للروبوتات. يُفصّل هذا البحث البنية المعمارية لنموذج EO-1، واستراتيجية بناء البيانات في EO-Data1.5M، ومنهجية التدريب، مما يقدّم رؤى قيمة لتطوير نماذج أساسية مُدمجة متقدمة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.