HyperAIHyperAI

Command Palette

Search for a command to run...

OS-ATLAS: نموذج إجراءات أساسي للوكلاء الشاملين واجهة المستخدم الرسومية

الملخص

تُعتمد الجهود الحالية في بناء وكلاء واجهة المستخدم الرسومية (GUI) بشكل كبير على توفر نماذج الرؤية واللغة التجارية القوية مثل GPT-4o وGeminiProVision. وغالبًا ما يتردد الممارسون في استخدام النماذج المفتوحة المصدر من نماذج الرؤية واللغة (VLMs) بسبب التأخير الكبير في الأداء مقارنةً بنسخها المغلقة، خصوصًا في مهام تثبيت واجهة المستخدم (GUI grounding) وسياقات التوزيع الخارجي (Out-Of-Distribution, OOD). ولتمكين الأبحاث المستقبلية في هذا المجال، قمنا بتطوير نموذج OS-Atlas – وهو نموذج أساسي لتنفيذ الإجراءات في واجهات المستخدم الرسومية، يتميز بأداء متميز في مهام تثبيت واجهة المستخدم ومهام الوكيل المُتَعَلِّم في سياقات OOD، وذلك بفضل ابتكارات في كلاً من البيانات والنمذجة. وقد بذلنا جهدًا هندسيًا كبيرًا لتطوير أداة مفتوحة المصدر تُستخدم في توليد بيانات تثبيت واجهة المستخدم عبر منصات متعددة، تشمل Windows وLinux وmacOS وAndroid والويب. وباستخدام هذه الأداة، نُعلن عن إطلاق أكبر مجموعة بيانات مفتوحة المصدر لمهام تثبيت واجهة المستخدم عبر منصات متعددة حتى الآن، وتشمل أكثر من 13 مليون عنصر واجهة مستخدم. وعند دمج هذه المجموعة مع ابتكارات في تدريب النموذج، تُمكّن OS-Atlas من فهم لقطات شاشة واجهة المستخدم وتميّزها في الواجهات غير المرئية مسبقًا. وخلال تقييم مكثف عبر ستة معايير تغطي ثلاث منصات مختلفة (الهاتف المحمول، الحاسوب المكتبي، والويب)، أظهر OS-Atlas تحسينات كبيرة في الأداء مقارنةً بالنماذج الرائدة السابقة. كما كشف التقييم عن رؤى قيّمة حول تحسين مستمر وتوسيع قدرات النماذج المفتوحة المصدر من نماذج الرؤية واللغة كوكيلات ذكية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
OS-ATLAS: نموذج إجراءات أساسي للوكلاء الشاملين واجهة المستخدم الرسومية | مستندات | HyperAI