SEAgent: وكيل استخدام الحاسوب ذات التطور الذاتي مع التعلم المستقل من التجربة

تمكين نماذج الرؤية واللغة الكبيرة (LVLMs) من إعادة استخدامها كوكالات استخدام الحاسوب (CUAs) أدى إلى تطورات كبيرة، وغالبًا ما يُعزى هذا التقدم إلى البيانات المُعلَّمة يدويًا من قبل البشر. ومع ذلك، تواجه هذه النماذج صعوبات كبيرة في التعامل مع البرمجيات الجديدة والمتخصصة، خاصة في السيناريوهات التي تفتقر إلى التسميات البشرية. ولحل هذه التحديات، نقترح SEAgent، وهي إطار عامل ذاتي التطور يمكّن وكالات استخدام الحاسوب من التطور بشكل تلقائي من خلال التفاعل مع برمجيات غير مألوفة. وبشكل محدد، يُمكّن SEAgent وكالات استخدام الحاسوب من إتقان بيئات برمجية جديدة بشكل تلقائي من خلال التعلم التجربوي، حيث تُجري الوكالات استكشافًا للبرمجيات الجديدة، وتعلّم من خلال المحاولة والخطأ المتكررة، وتتدرج في أداء مهام تم إنشاؤها تلقائيًا من المهام البسيطة إلى المعقدة. ولتحقيق هذا الهدف، صممنا نموذج حالة العالم (World State Model) لتقييم مسارات التطور خطوة بخطوة، إلى جانب مُولِّد منهجي (Curriculum Generator) يُولِّد مهام متزايدة التنويع والصعوبة. وتحديث سياسة الوكيل يتم عبر التعلم التجربوي، الذي يتضمن محاكاة معاكسة للإجراءات الفاشلة، وتحسين سياسة مقارنة جماعية (GRPO) للإجراءات الناجحة. علاوةً على ذلك، نقدّم استراتيجية تدريب من المتخصص إلى العام، تدمج الرؤى التجريبية الفردية من وكالات متخصصة، مما يُسهم في تطوير وكالة CUA عامة أقوى قادرة على التطور التلقائي المستمر. ويتسم هذا الوكيل الموحّد بتحقيق أداء يتفوق على مجموعات وكالات متخصصة فردية في بيئات البرمجيات التي تم تخصيصها لها. وقد قمنا بتوثيق فعالية SEAgent عبر خمسة بيئات برمجية جديدة ضمن بيئة OS-World. وقد حقق نهجنا تحسنًا كبيرًا بنسبة 23.2% في معدل النجاح، من 11.3% إلى 34.5%، مقارنة بوكالة CUA مفتوحة المصدر تنافسية، وهي UI-TARS.