Gemini Robotics-ER 1.6 يعزز الاستدلال الروبوتي في المهام الواقعية
أطلقت جوجل اليوم نموذج Gemini Robotics-ER 1.6، وهو تحديث جوهري لنموذجها المتخصص في تعزيز قدرة الروبوتات على التفاعل مع العالم المادي. يهدف هذا النموذج إلى سد الفجوة بين الذكاء الرقمي والحركة الجسدية من خلال تمكين الروبوتات من ممارسة ما يسمى "الاستدلال الجسدي"، وهو القدرة على فهم البيئة المحيطة واتخاذ قرارات مبنية على المنطق بدلاً من مجرد تنفيذ الأوامر المبرمجة مسبقًا. يعتمد النموذج الجديد على تحسينات كبيرة في الاستدلال المكاني وفهم المشاهد من زوايا متعددة، مما يرفع من مستوى الاستقلالية في الروبوتات الصناعية والخدمية القادمة. يتخصص Gemini Robotics-ER 1.6 في القدرات المعرفية الحيوية للروبوتات، مثل الفهم البصري والمكاني، وتخطيط المهام، واكتشاف نجاحها. يعمل كنموذج استنتاجي عالي المستوى للروبوت، قادر على تنفيذ مهام معقدة من خلال استدعاء أدوات مدمجة بشكل أصلي مثل بحث جوجل، أو نماذج اللغة والبصر والحركة (VLAs)، أو أي وظائف محددة من قبل المستخدمين. وقد أظهر النموذج تحسنًا ملحوظًا مقارنة بسابقه ER 1.5 وبالنموذج Google 3.0 Flash، خاصة في مجالات الإيماء والتوجيه، والعد، واكتشاف نجاح المهام. أبرز ما يميز الإصدار الجديد هو إطلاق قدرة جديدة تمامًا وهي قراءة الأدوات، حيث أصبح الروبوت قادرًا على قراءة مخططات الضغط المعقدة وأوعية الرؤية، وهو ما تم اكتشافه وتطويره من خلال تعاون وثيق مع الشركة الشريكة بوسطن ديناميكس. هذا التطور يمكّن الروبوتات من العمل في بيئات صناعية معقدة تتطلب تفسير مؤشرات فيزيائية بدقة عالية، مما يفتح آفاقًا جديدة للتطبيقات الصناعية واللوجستية. أصبح النموذج متاحًا حاليًا للمطورين عبر واجهة برمجة تطبيقات Gemini (Gemini API) ومنصة Google AI Studio. تهدف جوجل إلى تسريع تبني هذه التقنية من خلال توفير موارد تعليمية للمطورين، بما في ذلك ملف Colab يحتوي على أمثلة عملية حول كيفية تكوين النموذج وتوجيهه لتنفيذ مهام الاستدلال الجسدي. يمثل هذا الإطلاق خطوة مهمة نحو جعل الروبوتات أكثر ذكاءً وقدرة على المساعدة في المهام اليومية والصناعية التي تتطلب فهمًا عميقًا للفضاء الفيزيائي والتفاعل معه بذكاء ومرونة.
