HyperAIHyperAI
منذ 2 أشهر

SeeClick: الاستفادة من تثبيت واجهة المستخدم الرسومية لتطوير الوكلاء البصريين المتقدمين لواجهة المستخدم الرسومية

Kanzhi Cheng; Qiushi Sun; Yougang Chu; Fangzhi Xu; Yantao Li; Jianbing Zhang; Zhiyong Wu
SeeClick: الاستفادة من تثبيت واجهة المستخدم الرسومية لتطوير الوكلاء البصريين المتقدمين لواجهة المستخدم الرسومية
الملخص

تُصمَّم واجهات المستخدم الرسومية (GUI) للوكلاء لautomate المهام المعقدة على الأجهزة الرقمية، مثل الهواتف الذكية وأجهزة الكمبيوتر المكتبية. تعتمد معظم الوكلاء الحاليين لواجهات المستخدم الرسومية على التفاعل مع البيئة من خلال البيانات المنظمة المستخرجة، والتي يمكن أن تكون طويلة بشكل ملحوظ (مثل HTML) وأحيانًا غير متاحة (مثل على أجهزة الكمبيوتر المكتبية). لحل هذه المشكلة، نقترح وكيلًا بصريًا جديدًا لواجهة المستخدم الرسومية -- SeeClick، والذي يعتمد فقط على الصور الشاشة لautomate المهام. في دراستنا الأولية، اكتشفنا تحديًا رئيسيًا في تطوير الوكلاء البصريين لواجهات المستخدم الرسومية: تثبيت واجهة المستخدم الرسومية -- القدرة على تحديد عناصر الشاشة بدقة بناءً على التعليمات. لمواجهة هذا التحدي، نقترح تحسين SeeClick بتثبيت واجهة المستخدم الرسومية قبل التدريب وتطوير طريقة لautomate إعداد بيانات تثبيت واجهة المستخدم الرسومية. بالإضافة إلى الجهود أعلاه، قمنا أيضًا بإنشاء ScreenSpot، أول معيار حقيقي لتثبيت واجهة المستользоват الرسومية يشمل بيئات الهاتف المحمول والكمبيوتر المكتبي والويب. بعد التدريب الأولي، يظهر SeeClick تحسنًا كبيرًا في ScreenSpot مقارنة بأساسيات مختلفة. علاوة على ذلك، تدعم التقييمات الشاملة على ثلاثة مقاييس شائعة الاستخدام باستمرار نتائجنا التي تشير إلى أن التقدم في تثبيت واجهة المستخدم الرسومية يرتبط مباشرة بالأداء المحسن في مهام الوكلاء البصريين لواجهة المستخدم الرسومية. يمكن الوصول إلى النموذج والبيانات والكود عبر الرابط https://github.com/njucckevin/SeeClick.注释:- "automate" 一词在阿拉伯语中没有直接对应的动词形式,因此在翻译时保留了英文原词。- "GUI grounding" 是一个不太常见的术语,因此在译文中保留了英文原词并进行了解释。以下是优化后的版本:الوكلاء الذين يستخدمون واجهة المستخدم الرسومية (GUI) يتم تصميمهم لأتمتة المهام المعقدة على الأجهزة الرقمية مثل الهواتف الذكية وأجهزة الكمبيوتر المكتبية. تعتمد معظم الوكلاء الحالية التي تعمل مع واجهات المستخدم الرسومية على البيانات المنظمة المستخرجة للتواصل مع البيئة، وهي قد تكون طويلة بشكل ملحوظ (مثل HTML) أو غير متاحة أحيانًا (مثل على أجهزة الكمبيوتر المكتبية). من أجل تخفيف هذه المشكلة، نقترح وكيلًا بصريًا جديدًا لواجهة المستخدم الرسomiّة -- SeeClick -- الذي يعتمد فقط على صور الشاشة لأتمتة المهام. في دراستنا الأولية، اكتشفنا تحديًّا رئيسيًّا في تطوير الوكلاء البصريين لواجهات المستخدم الرسموية وهو "ربط واجهة المستخدم البصرية" (GUI grounding)، أي القدرة على تحديد عناصر الشاشة بدقة بناءً على التعليمات. للتعامل مع هذا التحدي، نقترح تعزيز SeeClick بتدريب أولي للربط البصري لوحة التحكم وتطوير طريقة لأتمتة جمع بيانات الربط البصري لوحة التحكم. بالإضافة إلى ذلك، قمنا بإنشاء ScreenSpot وهو أول معيار حقيقي للربط البصري لوحة التحكم يغطي بيئات الهاتف المحمول والكمبيوتر المكتبي والويب. بعد التدريب الأولي، حقق SeeClick تحسينات كبيرة في ScreenSpot بالمقارنة مع العديد من الأساليب الأساسية. علاوةً على ذلك، فإن التقييمات الشاملة التي أجريت باستخدام ثلاثة مقاييس شائعة الاستخدام أكدت باستمرار أن التقدم في الربط البصري لوحة التحكم له علاقة مباشرة بالأداء الأفضل في مهام الوكلاء الذين يستخدمون واجهة مستخدم رسومية.النموذج والبيانات والكود متوفرون عبر الرابط: https://github.com/njucckevin/SeeClick

SeeClick: الاستفادة من تثبيت واجهة المستخدم الرسومية لتطوير الوكلاء البصريين المتقدمين لواجهة المستخدم الرسومية | أحدث الأوراق البحثية | HyperAI