ShowUI: نموذج رؤية ولغة وعمل يركز على أتمتة واجهة المستخدم الرسومية


1. مقدمة البرنامج التعليمي
ShowUI، نموذج تفاعلي بصري لغوي، طُوّر بالتعاون بين مختبر Show في الجامعة الوطنية بسنغافورة ومايكروسوفت عام ٢٠٢٤، وهو مصمم للمساعدين الأذكياء ذوي واجهة المستخدم الرسومية (GUI) لتحسين كفاءة العمل البشري. يفهم هذا النموذج محتوى واجهة الشاشة وينفذ عمليات تفاعلية مثل النقر والكتابة والتمرير. يدعم هذا النموذج سيناريوهات تطبيقات الويب والهواتف المحمولة، ويمكنه إكمال مهام واجهة المستخدم المعقدة تلقائيًا. يستطيع ShowUI تحليل لقطات الشاشة وأوامر المستخدم للتنبؤ بالإجراءات التفاعلية على الواجهة. عنوان البحث ذي الصلة "...".ShowUI: نموذج رؤية-لغة-فعل واحد لوكيل واجهة المستخدم الرسومية المرئيلقد تم تضمينه في CVPR 2025.
يستخدم هذا البرنامج التعليمي بطاقة رسوميات RTX 5090 واحدة كمورد افتراضي، ولكن يمكن استخدام بطاقة رسوميات RTX 4090 واحدة على الأقل لبدء البرنامج.
2. أمثلة المشاريع

3. خطوات التشغيل
1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. خطوات الاستخدام
إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.

معلومات الاستشهاد
@misc{lin2024showui,
title={ShowUI: One Vision-Language-Action Model for GUI Visual Agent},
author={Kevin Qinghong Lin and Linjie Li and Difei Gao and Zhengyuan Yang and Shiwei Wu and Zechen Bai and Weixian Lei and Lijuan Wang and Mike Zheng Shou},
year={2024},
eprint={2411.17465},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2411.17465},
}بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.