MMBench-GUI: إطار تقييم متعدد المنصات متسلسل للوكلاء الرسوميين

نقدم MMBench-GUI، وهو معيار هرمي لاختبار الوكلاء الآليين لواجهات المستخدم (GUI) عبر منصات Windows وmacOS وLinux وiOS وAndroid والويب. يتكون هذا المعيار من أربع مستويات: فهم محتوى واجهة المستخدم، التعرف على العناصر، تنفيذ المهام، وتعاون المهام، ويشمل المهارات الأساسية اللازمة للوكلاء الآليين لواجهات المستخدم. بالإضافة إلى ذلك، نقترح مقياسًا جديدًا يُسمى "مجال الكفاءة-الجودة" (Efficiency-Quality Area (EQA)) لتقدير كفاءة تنفيذ الوكلاء الآليين في السيناريوهات الآلية عبر الإنترنت. من خلال MMBench-GUI، نكتشف أن التعرف الدقيق على المحتوى البصري هو عامل حاسم في نجاح المهام بشكل عام، مما يبرز الفوائد الكبيرة لFrameworks المودولارية التي تدمج وحدات تعرف مخصصة. علاوة على ذلك، يتطلب الوكلاء لتحقيق آليات واجهة المستخدم الموثوقة قدرات قوية في التخطيط للمهام والتوسع عبر المنصات، حيث تلعب الذاكرة ذات السياق الطويل، ومساحة الإجراءات الواسعة، والاستدلال طويل المدى دورًا حاسمًا. من المهم بشكل أكبر أن كفاءة المهام تظل بعدًا غير مكتمل الاستكشاف بشكل كبير، وأن جميع النماذج تعاني من كفاءة ضعيفة بشكل كبير، حيث تتضمن حتى المهام التي تُنهى بشكل نهائي خطوات مكررة كبيرة. إن دمج التحديد الدقيق، والخطط الفعالة، واستراتيجيات التوقف المبكر ضروري تمامًا لضمان آليات واجهة المستخدم الآلية فعالة وقابلة للتوسع. سيتم توفير رمز المعيار، وبيانات التقييم، وبيئة التشغيل علنًا على الرابط التالي: https://github.com/open-compass/MMBench-GUI.