Mobile-Agent-v3: الوكلاء الأساسيون للتشغيل التلقائي واجهة المستخدم الرسومية

يقدم هذا البحث نموذج GUI-Owl، وهو نموذج أساسي للوحة واجهة المستخدم (GUI) يحقق أداءً متقدماً على مستوى العالم بين النماذج المفتوحة المصدر ذات التدفق الكامل (end-to-end) على عشرة معايير لواجهة المستخدم في بيئات سطح المكتب والجوال، ويغطي مجالات الترسيخ (grounding)، والإجابة على الأسئلة، والتخطيط، واتخاذ القرار، والمعرفة الإجرائية. ويحقق نموذج GUI-Owl-7B نتيجة قدرها 66.4 على منصة AndroidWorld و29.4 على منصة OSWorld. وبما يعتمد على هذا النموذج، نقترح إطار عمل GUI الوكيل العام Mobile-Agent-v3، الذي يحسن الأداء أكثر ليصل إلى 73.3 على AndroidWorld و37.7 على OSWorld، مُحدثاً بذلك أقصى مستوى أداء جديد في مجال الإطارات المفتوحة المصدر للوكلاء GUI.يتميز GUI-Owl بثلاثة ابتكارات رئيسية:(1) البنية التحتية البيئية الضخمة: وهي بيئة افتراضية قائمة على السحابة تغطي أنظمة تشغيل Android وUbuntu وmacOS وWindows، وتتيح تطبيق إطارنا المُطور لتصنيع مسارات واجهة المستخدم ذاتية التطور (Self-Evolving GUI Trajectory Production). ويُولِّد هذا الإطار بيانات تفاعل عالية الجودة من خلال توليد أوامر تلقائي وتحقق من صحتها، مع الاستفادة من نموذج GUI-Owl لتحسين المسارات بشكل تكراري، مما يشكل دورة ذاتية التحسين. كما يدعم هذا الإطار مسارات بيانات متنوعة ويقلل الحاجة إلى التسمية اليدوية.(2) قدرات واسعة للوكيل الأساسي: من خلال دمج تقنيات الترسيخ في واجهة المستخدم، والتخطيط، ودلالات الإجراءات، وأنماط الاستدلال، يتيح GUI-Owl دعم اتخاذ قرارات تدفق كامل (end-to-end)، ويُمكنه أن يعمل كمكون قابل للتجميع في الأنظمة متعددة الوكلاء.(3) تعلم التدعيم القابل للتوسع في البيئة: طوّرنا إطاراً قابلاً للتوسع لتعلم التدعيم (Reinforcement Learning)، مع تدريب كامل متزامن (fully asynchronous) لضمان التوافق مع العالم الحقيقي. كما قمنا بتطوير خوارزمية مُحسّنة لتحسين السياسة النسبية المُتَوَقِّعة على أساس المسار (Trajectory-aware Relative Policy Optimization - TRPO) للتعلم التلقائي (online RL)، والتي حققت نتيجة قدرها 34.9 على منصة OSWorld.تم إتاحة نموذج GUI-Owl وإطار Mobile-Agent-v3 مفتوح المصدر عبر الرابط التالي: https://github.com/X-PLUG/MobileAgent.