Command Palette
Search for a command to run...
OS-ATLAS: نموذج إجراءات أساسي للوكلاء الشاملين واجهة المستخدم الرسومية
OS-ATLAS: نموذج إجراءات أساسي للوكلاء الشاملين واجهة المستخدم الرسومية
الملخص
تُعتمد الجهود الحالية في بناء وكلاء واجهة المستخدم الرسومية (GUI) بشكل كبير على توفر نماذج الرؤية واللغة التجارية القوية مثل GPT-4o وGeminiProVision. وغالبًا ما يتردد الممارسون في استخدام النماذج المفتوحة المصدر من نماذج الرؤية واللغة (VLMs) بسبب التأخير الكبير في الأداء مقارنةً بنسخها المغلقة، خصوصًا في مهام تثبيت واجهة المستخدم (GUI grounding) وسياقات التوزيع الخارجي (Out-Of-Distribution, OOD). ولتمكين الأبحاث المستقبلية في هذا المجال، قمنا بتطوير نموذج OS-Atlas – وهو نموذج أساسي لتنفيذ الإجراءات في واجهات المستخدم الرسومية، يتميز بأداء متميز في مهام تثبيت واجهة المستخدم ومهام الوكيل المُتَعَلِّم في سياقات OOD، وذلك بفضل ابتكارات في كلاً من البيانات والنمذجة. وقد بذلنا جهدًا هندسيًا كبيرًا لتطوير أداة مفتوحة المصدر تُستخدم في توليد بيانات تثبيت واجهة المستخدم عبر منصات متعددة، تشمل Windows وLinux وmacOS وAndroid والويب. وباستخدام هذه الأداة، نُعلن عن إطلاق أكبر مجموعة بيانات مفتوحة المصدر لمهام تثبيت واجهة المستخدم عبر منصات متعددة حتى الآن، وتشمل أكثر من 13 مليون عنصر واجهة مستخدم. وعند دمج هذه المجموعة مع ابتكارات في تدريب النموذج، تُمكّن OS-Atlas من فهم لقطات شاشة واجهة المستخدم وتميّزها في الواجهات غير المرئية مسبقًا. وخلال تقييم مكثف عبر ستة معايير تغطي ثلاث منصات مختلفة (الهاتف المحمول، الحاسوب المكتبي، والويب)، أظهر OS-Atlas تحسينات كبيرة في الأداء مقارنةً بالنماذج الرائدة السابقة. كما كشف التقييم عن رؤى قيّمة حول تحسين مستمر وتوسيع قدرات النماذج المفتوحة المصدر من نماذج الرؤية واللغة كوكيلات ذكية.