الملخص

نقدم MMBench-GUI، وهو معيار هرمي لاختبار الوكلاء الآليين لواجهات المستخدم (GUI) عبر منصات Windows وmacOS وLinux وiOS وAndroid والويب. يتكون هذا المعيار من أربع مستويات: فهم محتوى واجهة المستخدم، التعرف على العناصر، تنفيذ المهام، وتعاون المهام، ويشمل المهارات الأساسية اللازمة للوكلاء الآليين لواجهات المستخدم. بالإضافة إلى ذلك، نقترح مقياسًا جديدًا يُسمى "مجال الكفاءة-الجودة" (Efficiency-Quality Area (EQA)) لتقدير كفاءة تنفيذ الوكلاء الآليين في السيناريوهات الآلية عبر الإنترنت. من خلال MMBench-GUI، نكتشف أن التعرف الدقيق على المحتوى البصري هو عامل حاسم في نجاح المهام بشكل عام، مما يبرز الفوائد الكبيرة لFrameworks المودولارية التي تدمج وحدات تعرف مخصصة. علاوة على ذلك، يتطلب الوكلاء لتحقيق آليات واجهة المستخدم الموثوقة قدرات قوية في التخطيط للمهام والتوسع عبر المنصات، حيث تلعب الذاكرة ذات السياق الطويل، ومساحة الإجراءات الواسعة، والاستدلال طويل المدى دورًا حاسمًا. من المهم بشكل أكبر أن كفاءة المهام تظل بعدًا غير مكتمل الاستكشاف بشكل كبير، وأن جميع النماذج تعاني من كفاءة ضعيفة بشكل كبير، حيث تتضمن حتى المهام التي تُنهى بشكل نهائي خطوات مكررة كبيرة. إن دمج التحديد الدقيق، والخطط الفعالة، واستراتيجيات التوقف المبكر ضروري تمامًا لضمان آليات واجهة المستخدم الآلية فعالة وقابلة للتوسع. سيتم توفير رمز المعيار، وبيانات التقييم، وبيئة التشغيل علنًا على الرابط التالي: https://github.com/open-compass/MMBench-GUI.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

MMBench-GUI: إطار تقييم متعدد المنصات متسلسل للوكلاء الرسوميين

Xuehui Wang Zhenyu Wu JingJing Xie Zichen Ding Bowen Yang Zehao Li Zhaoyang Liu Qingyun Li Xuan Dong Zhe Chen18 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MMBench-GUI: إطار تقييم متعدد المنصات متسلسل للوكلاء الرسوميين

Xuehui Wang Zhenyu Wu JingJing Xie Zichen Ding Bowen Yang Zehao Li Zhaoyang Liu Qingyun Li Xuan Dong Zhe Chen18 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MMBench-GUI: إطار تقييم متعدد المنصات متسلسل للوكلاء الرسوميين

Xuehui Wang Zhenyu Wu JingJing Xie Zichen Ding Bowen Yang Zehao Li Zhaoyang Liu Qingyun Li Xuan Dong Zhe Chen18 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Xuehui Wang Zhenyu Wu JingJing Xie Zichen Ding Bowen Yang Zehao Li Zhaoyang Liu Qingyun Li Xuan Dong Zhe Chen

Xuehui Wang Zhenyu Wu JingJing Xie Zichen Ding Bowen Yang Zehao Li Zhaoyang Liu Qingyun Li Xuan Dong Zhe Chen

Xuehui Wang Zhenyu Wu JingJing Xie Zichen Ding Bowen Yang Zehao Li Zhaoyang Liu Qingyun Li Xuan Dong Zhe Chen