HyperAI
منذ 2 أيام

MMBench-GUI: إطار تقييم متعدد المنصات متسلسل للوكلاء الرسوميين

Xuehui Wang, Zhenyu Wu, JingJing Xie, Zichen Ding, Bowen Yang, Zehao Li, Zhaoyang Liu, Qingyun Li, Xuan Dong, Zhe Chen, Weiyun Wang, Xiangyu Zhao, Jixuan Chen, Haodong Duan, Tianbao Xie, Chenyu Yang, Shiqian Su, Yue Yu, Yuan Huang, Yiqian Liu, Xiao Zhang, Yanting Zhang, Xiangyu Yue, Weijie Su, Xizhou Zhu, Wei Shen, Jifeng Dai, Wenhai Wang
MMBench-GUI: إطار تقييم متعدد المنصات متسلسل للوكلاء الرسوميين
الملخص

نقدم MMBench-GUI، وهو معيار هرمي لاختبار الوكلاء الآليين لواجهات المستخدم (GUI) عبر منصات Windows وmacOS وLinux وiOS وAndroid والويب. يتكون هذا المعيار من أربع مستويات: فهم محتوى واجهة المستخدم، التعرف على العناصر، تنفيذ المهام، وتعاون المهام، ويشمل المهارات الأساسية اللازمة للوكلاء الآليين لواجهات المستخدم. بالإضافة إلى ذلك، نقترح مقياسًا جديدًا يُسمى "مجال الكفاءة-الجودة" (Efficiency-Quality Area (EQA)) لتقدير كفاءة تنفيذ الوكلاء الآليين في السيناريوهات الآلية عبر الإنترنت. من خلال MMBench-GUI، نكتشف أن التعرف الدقيق على المحتوى البصري هو عامل حاسم في نجاح المهام بشكل عام، مما يبرز الفوائد الكبيرة لFrameworks المودولارية التي تدمج وحدات تعرف مخصصة. علاوة على ذلك، يتطلب الوكلاء لتحقيق آليات واجهة المستخدم الموثوقة قدرات قوية في التخطيط للمهام والتوسع عبر المنصات، حيث تلعب الذاكرة ذات السياق الطويل، ومساحة الإجراءات الواسعة، والاستدلال طويل المدى دورًا حاسمًا. من المهم بشكل أكبر أن كفاءة المهام تظل بعدًا غير مكتمل الاستكشاف بشكل كبير، وأن جميع النماذج تعاني من كفاءة ضعيفة بشكل كبير، حيث تتضمن حتى المهام التي تُنهى بشكل نهائي خطوات مكررة كبيرة. إن دمج التحديد الدقيق، والخطط الفعالة، واستراتيجيات التوقف المبكر ضروري تمامًا لضمان آليات واجهة المستخدم الآلية فعالة وقابلة للتوسع. سيتم توفير رمز المعيار، وبيانات التقييم، وبيئة التشغيل علنًا على الرابط التالي: https://github.com/open-compass/MMBench-GUI.