HyperAIHyperAI

Command Palette

Search for a command to run...

ShowUI: نموذج رؤية ولغة وعمل يركز على أتمتة واجهة المستخدم الرسومية

التاريخ

منذ عام واحد

الحجم

486.51 MB

الترخيص

Apache 2.0

رابط الورقة البحثية

2411.17465

1. مقدمة البرنامج التعليمي

يُعدّ ShowUI نموذجًا بصريًا لغويًا تفاعليًا، طُوّر بالتعاون بين مختبر Show Lab في جامعة سنغافورة الوطنية ومايكروسوفت عام 2024، وهو مصمم لمساعدي المستخدم الأذكياء ذوي واجهة المستخدم الرسومية (GUI) بهدف تحسين كفاءة العمل البشري. يفهم هذا النموذج محتوى واجهة الشاشة وينفذ إجراءات تفاعلية مثل النقر والكتابة والتمرير. يدعم ShowUI تطبيقات الويب وتطبيقات الجوال، ويمكنه إنجاز مهام واجهة المستخدم المعقدة تلقائيًا. كما يستطيع تحليل لقطات الشاشة وأوامر المستخدم للتنبؤ بالإجراءات التفاعلية على الواجهة. تتوفر أوراق بحثية ذات صلة. ShowUI: نموذج رؤية-لغة-فعل واحد لوكيل واجهة المستخدم الرسومية المرئي تم إدراجه في مؤتمر CVPR 2025.

يستخدم هذا البرنامج التعليمي بطاقة رسوميات RTX 5090 واحدة كمورد افتراضي، ولكن يمكن استخدام بطاقة رسوميات RTX 4090 واحدة على الأقل لبدء البرنامج.

2. أمثلة المشاريع

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. خطوات الاستخدام

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.

معلومات الاستشهاد

@misc{lin2024showui,
      title={ShowUI: One Vision-Language-Action Model for GUI Visual Agent}, 
      author={Kevin Qinghong Lin and Linjie Li and Difei Gao and Zhengyuan Yang and Shiwei Wu and Zechen Bai and Weixian Lei and Lijuan Wang and Mike Zheng Shou},
      year={2024},
      eprint={2411.17465},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2411.17465}, 
}

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp