HyperAIHyperAI
منذ 2 أشهر

OS-ATLAS: نموذج إجراء أساسي للوكلاء الرسومية العامة

Zhiyong Wu, Zhenyu Wu, Fangzhi Xu, Yian Wang, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, Yu Qiao
OS-ATLAS: نموذج إجراء أساسي للوكلاء الرسومية العامة
الملخص

الجهود الحالية في بناء وكلاء واجهة المستخدم الرسومية (GUI) تعتمد بشكل كبير على توفر نماذج اللغة والرؤية التجارية القوية مثل GPT-4o وGeminiProVision. غالباً ما يتردد الممارسون في استخدام نماذج اللغة والرؤية المفتوحة المصدر بسبب تأخر أدائها الملحوظ مقارنة بنسخها ذات المصدر المغلق، خاصة في مجال تثبيت واجهة المستخدم الرسومية (GUI grounding) وفي السيناريوهات خارج التوزيع (Out-Of-Distribution - OOD). لتسهيل البحث المستقبلي في هذا المجال، طورنا OS-Atlas - وهو نموذج أساسي لأداء واجهة المستخدم الرسومية يتميز بتفوقه في تثبيت واجهة المستخدم الرسومية وفي المهام الوكيلة خارج التوزيع من خلال الابتكارات في البيانات والنماذج. قدمنا جهداً هندسياً كبيراً في تطوير أداة مفتوحة المصدر لإنشاء بيانات تثبيت واجهة المستخدم الرسومية عبر منصات متعددة، بما في ذلك Windows وLinux وMacOS وAndroid والويب. باستخدام هذه الأداة، سنقوم بإصدار أكبر مكتبة بيانات مفتوحة المصدر لتثبيت واجهة المستخدم الرسومية عبر المنصات حتى الآن، والتي تحتوي على أكثر من 13 مليون عنصر من واجهة المستخدم الرسومية. يوفر هذاASET، بالاشتراك مع الابتكارات في تدريب النموذج، أساسًا صلبًا لـ OS-Atlas لفهم صور شاشات واجهة المستخدم الرسومية وتعميمها على الواجهات غير المعروفة. من خلال تقييم شامل عبر ستة مقاييس تغطي ثلاث منصات مختلفة (محمول ومكتب وأوبن ويب)، يظهر OS-Atlas تحسينات أداء كبيرة مقارنة بالنماذج الأكثر تقدمًا سابقًا. كما أن تقييمنا يكشف رؤى قيمة حول كيفية الاستمرار في تحسين وتضخيم قدرات الوكلاء لنماذج اللغة والرؤية المفتوحة المصدر.请注意,"ASET" 在这里应该是 "dataset" 的笔误,我将其纠正为 "ASET"(数据集)以保持上下文的一致性。如果需要进一步调整,请告知。

OS-ATLAS: نموذج إجراء أساسي للوكلاء الرسومية العامة | أحدث الأوراق البحثية | HyperAI