الملخص

يُعد بناء مساعدين لواجهات المستخدم الرسومية (GUI) واعدًا جدًا في تعزيز إنتاجية سير العمل البشري. وعلى الرغم من أن معظم الوكلاء تعتمد على اللغة، وتعتمد على واجهات برمجة تطبيقات مغلقة المصدر تُزود ببيانات وصفية غنية بالنص (مثل HTML أو شجرة الوصولية)، فإنها تُظهر قيودًا في فهم العناصر المرئية لواجهة المستخدم كما يفعل البشر، مما يبرز الحاجة إلى تطوير وكلاء مرئيين مُوجَّهين بواجهة المستخدم. في هذا العمل، نُطوّر نموذجًا يعتمد على التصور واللغة والعملية في العالم الرقمي، يُسمَّى ShowUI، ويتميز بالابتكارات التالية: (أ) اختيار مُستخلصات بصرية مُوجَّهة بواجهة المستخدم، الذي يقلل من التكاليف الحسابية من خلال صياغة لقطات الشاشة على شكل رسم بياني مترابط بواجهة المستخدم، وتحديد علاقاتها الزائدة بشكل تلقائي، ويُستخدم كمعيار لاختيار المستخلصات البصرية خلال كتل الانتباه الذاتي؛ (ب) تدفق مُتداخل للتصور واللغة والعملية، الذي يُوحد بذكاء الاحتياجات المتنوعة ضمن مهام واجهة المستخدم، ويُمكّن من إدارة فعّالة لتاريخ العمليات البصرية أثناء التنقل، أو ربط تسلسلات الاستفسار-العمل متعددة الجولات مع لقطة شاشة واحدة، مما يُحسّن كفاءة التدريب؛ (ج) مجموعات بيانات صغيرة الحجم ولكن عالية الجودة لمهام اتباع التعليمات في واجهة المستخدم، تم إنشاؤها بعناية من خلال تدقيق دقيق للبيانات واستخدام استراتيجية إعادة عينة لمعالجة التوازن غير المتكافئ بين أنواع البيانات. وباستخدام هذه المكونات، يُحقِّق نموذج ShowUI، وهو نموذج خفيف الحجم بحجم 2 مليار معلمة ويُدرَّب على 256 ألف مثال، دقة قوية تبلغ 75.1% في مهام التحديد المُحَدَّد (zero-shot) لقطات الشاشة. كما أن آلية اختيار المستخلصات البصرية المُوجَّهة بواجهة المستخدم تقلل من كمية المستخلصات البصرية الزائدة بنسبة 33% أثناء التدريب، وتعزز أداء النموذج بنسبة 1.4 مرة. وتشير تجارب التنقل في بيئات الويب (Mind2Web)، والهاتف المحمول (AITW)، والبيئة الصغيرة (MiniWob) إلى فعالية النموذج وامكانياته الكبيرة في تطوير وكلاء مرئيين مُوجَّهين بواجهة المستخدم. يمكن الوصول إلى النماذج عبر الرابط: https://github.com/showlab/ShowUI.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

ShowUI: نموذج واحد لرؤية ولغة وعمل لوكيل بصرى واجهة المستخدم الرسومية

Kevin Qinghong Lin Linjie Li Difei Gao Zhengyuan Yang Shiwei Wu Zechen Bai Weixian Lei Lijuan Wang Mike Zheng Shou

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

ShowUI: نموذج واحد لرؤية ولغة وعمل لوكيل بصرى واجهة المستخدم الرسومية

Kevin Qinghong Lin Linjie Li Difei Gao Zhengyuan Yang Shiwei Wu Zechen Bai Weixian Lei Lijuan Wang Mike Zheng Shou

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

ShowUI: نموذج واحد لرؤية ولغة وعمل لوكيل بصرى واجهة المستخدم الرسومية

Kevin Qinghong Lin Linjie Li Difei Gao Zhengyuan Yang Shiwei Wu Zechen Bai Weixian Lei Lijuan Wang Mike Zheng Shou

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters