DeepMind تطلق وكيلًا ذكيًا يتعلم حل مهام معقدة داخل نموذج عالم مُصغّر قابل للتوسع
أعلنت شركة جوجل ديب مايند عن تطور كبير في مجال الذكاء الاصطناعي من خلال إطلاق نموذج جديد يُدعى "دريمير 4"، وهو وكيل ذكي قادر على تعلم مهام معقدة داخل نموذج عالم مُصَمَّم بسلاسة، دون الحاجة إلى تجربة فعلية في البيئة المُحاكاة. يُعد هذا النموذج أول وكيل ذكي يُحقّق إنجازًا معقدًا مثل استخراج الماس في لعبة مينكرافت، تمامًا دون لعب حقيقي في اللعبة، بل فقط من خلال تدريبه على بيانات فيديو مُسجّلة مسبقًا. يُعتمد دريمير 4 على نموذج تحويلي كبير تم تدريبه على توقع الملاحظات المستقبلية، والإجراءات، والحوافز المرتبطة بسياقات معينة. تم تدريبه على مجموعة بيانات ثابتة من مقاطع فيديو لعب مُسجّلة من لاعبين بشر، حيث تُظهر تأثيرات حركات الماوس واللواصق. بعد اكتمال التدريب، يُدرّب النموذج نفسه على اتخاذ قرارات أفضل عبر تعلم التدريب المُعادل (التحفيز التكراري) في سيناريوهات مُتخيّلة متنوعة. يُعدّ هذا التقدّم ميزة جوهرية مقارنة بالأنظمة السابقة، التي كانت تعتمد على ملايين التفاعلات التجريبيّة لتعلّم مهام بسيطة. أما دريمير 4، فيُظهر قدرة ملحوظة على تعلّم تفاعلات كائنية معقدة مثل قطع الأشجار، صناعة الأدوات، تعدين المعادن، وتجهيز المعدات، كل ذلك من خلال فهم داخلي دقيق لآليات اللعبة. أحد أبرز ميزات النموذج هو سرعته العالية في التوليد: يُحقّق تحسينًا بنسبة تزيد عن 25 مرة مقارنة بنماذج الفيديو التقليدية، ويُمكنه تشغيل التفاعلات في الوقت الفعلي على وحدة معالجة واحدة. كما يُظهر دقيقًا في توقع ديناميكيات الأشياء، مثل وضع الكتل، استخدام الأبواب والصناديق، وحتى تشغيل القوارب. ما يُميّز دREAMER 4 أيضًا هو قدرته على التعلّم من كميات ضئيلة من بيانات الإجراءات — بضع مئات من الساعات فقط — بينما يُستمدّ معظم معرفته من الفيديوهات فقط. هذه الميزة تحمل آمالًا كبيرة لتدريب الروبوتات في العالم الحقيقي، حيث يُعدّ جمع بيانات التدريب بيئة فعلية بطيئًا أو مكلفًا، بينما يُوجد كمّ هائل من مقاطع الفيديو على الإنترنت تُظهر تفاعلات بشرية مع العالم المادي. يُخطط فريق البحث لتحسين النموذج مستقبلًا بإضافة ذاكرة طويلة الأمد لضمان الاتساق في البيئات المُحاكاة على مدى فترات طويلة، بالإضافة إلى دمج فهم اللغة لتمكين التعاون مع البشر. كما يُخطط لتدريب النموذج على فيديوهات الإنترنت العامة، لتمكينه من اكتساب معرفة عامة بالعالم المادي، مما يُفتح الباب أمام تدريب روبوتات ذكية قادرة على أداء مهام منزلية أو صناعية في سيناريوهات مُخيّلة. يُعتبر هذا الإنجاز خطوة جوهرية نحو بناء أنظمة ذكاء اصطناعي قادرة على التعلّم بذكاء، واتخاذ قرارات مُتعددة الخطوات، دون الحاجة إلى تجربة فعلية — ما يُمكّن من تطوير روبوتات أكثر أمانًا وفعالية في البيئات الحقيقية.