Command Palette
Search for a command to run...
ShowUI: نموذج رؤية ولغة وعمل يركز على أتمتة واجهة المستخدم الرسومية
Date
Size
486.51 MB
License
Apache 2.0
GitHub
Paper URL

1. مقدمة البرنامج التعليمي

يُعدّ ShowUI نموذجًا بصريًا لغويًا تفاعليًا، طُوّر بالتعاون بين مختبر Show Lab في جامعة سنغافورة الوطنية ومايكروسوفت عام 2024، وهو مصمم لمساعدي المستخدم الأذكياء ذوي واجهة المستخدم الرسومية (GUI) بهدف تحسين كفاءة العمل البشري. يفهم هذا النموذج محتوى واجهة الشاشة وينفذ إجراءات تفاعلية مثل النقر والكتابة والتمرير. يدعم ShowUI تطبيقات الويب وتطبيقات الجوال، ويمكنه إنجاز مهام واجهة المستخدم المعقدة تلقائيًا. كما يستطيع تحليل لقطات الشاشة وأوامر المستخدم للتنبؤ بالإجراءات التفاعلية على الواجهة. تتوفر أوراق بحثية ذات صلة. ShowUI: نموذج رؤية-لغة-فعل واحد لوكيل واجهة المستخدم الرسومية المرئي تم إدراجه في مؤتمر CVPR 2025.
يستخدم هذا البرنامج التعليمي بطاقة رسوميات RTX 5090 واحدة كمورد افتراضي، ولكن يمكن استخدام بطاقة رسوميات RTX 4090 واحدة على الأقل لبدء البرنامج.
2. أمثلة المشاريع

3. خطوات التشغيل
1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. خطوات الاستخدام
إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.

معلومات الاستشهاد
@misc{lin2024showui,
title={ShowUI: One Vision-Language-Action Model for GUI Visual Agent},
author={Kevin Qinghong Lin and Linjie Li and Difei Gao and Zhengyuan Yang and Shiwei Wu and Zechen Bai and Weixian Lei and Lijuan Wang and Mike Zheng Shou},
year={2024},
eprint={2411.17465},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2411.17465},
}Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.