Command Palette
Search for a command to run...
Kai Zhang Xiangchao Chen Bo Liu Tianci Xue Zeyi Liao et al

الملخص
يُعدّ الهدف طويل الأمد للوكلاء اللغويين هو التعلّم والتحسين من خلال تجربتهم الخاصة، بحيث يفوقوا البشر في المهام المعقدة والواقعية في النهاية. ومع ذلك، يظل تدريب هذه الوكلاء على بيانات التجربة باستخدام التعلّم بالتحفيز (reinforcement learning) أمرًا صعبًا في العديد من البيئات، سواء بسبب غياب مكافآت قابلة للتحقق (مثل المواقع الإلكترونية)، أو بسبب الحاجة إلى عمليات تكرار طويلة الأمد غير الفعالة (مثل استخدام الأدوات في محادثات متعددة المرات). ونتيجة لذلك، تعتمد معظم الوكلاء الحالية حاليًا على التخصيص المراقب باستخدام بيانات الخبراء، وهو أمر يصعب توسيع نطاقه، ويُظهر أداءً عامًا ضعيفًا. وتنبع هذه القيود من طبيعة التمثيلات التي يقدمها الخبراء: فهي تُغطي نطاقًا ضيقًا جدًا من السيناريوهات، وتعرض الوكيل لتنوع محدود في البيئة. نعالج هذه القيود من خلال نموذج وسط نسميه "التجربة المبكرة": وهي بيانات تفاعل ناتجة عن أفعال الوكيل نفسه، حيث تُستخدم الحالات المستقبلية الناتجة كمصدر للإشراف دون الحاجة إلى إشارات مكافأة. ضمن هذا النموذج، ندرس استراتيجيتين لاستخدام هذه البيانات: (1) نمذجة العالم الضمنية، التي تستخدم الحالات المجمعة لتثبيت السياسة في ديناميات البيئة؛ و(2) التأمل الذاتي، حيث يتعلم الوكيل من أفعاله غير المثلى لتحسين تفكيره واتخاذ قراراته. وقد قمنا بتقييم أداء النهجين في ثمانية بيئات متنوعة، وباستخدام عدة عائلات من النماذج. وقد أظهرت النتائج تحسينًا مستمرًا في الفعالية، وتحسّنًا في القدرة على التعميم خارج النطاق، مما يبرز القيمة الحقيقية للتجربة المبكرة. علاوةً على ذلك، في البيئات التي تتوفر فيها مكافآت قابلة للتحقق، تُظهر نتائجنا إشارات واعدة تشير إلى أن التجربة المبكرة توفر أساسًا قويًا لعملية التعلّم بالتحفيز اللاحقة، مما يُضعها كجسر عملي بين التعلّم بالتقليد (imitation learning) والوكلاء التي تُشغّل بالكامل من خلال التجربة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.