ShowUI: نموذج رؤية ولغة وعمل يركز على أتمتة واجهة المستخدم الرسومية


مقدمة البرنامج التعليمي
ShowUI هو نموذج رؤية ولغة وعمل تم تطويره بشكل مشترك من قبل Show Lab في الجامعة الوطنية في سنغافورة ومايكروسوفت في عام 2024. وهو مصمم للمساعدين الأذكياء ذوي واجهة المستخدم الرسومية (GUI) ويهدف إلى تحسين كفاءة العمل البشري. "نتائج الورقة ذات الصلة هي"ShowUI: نموذج رؤية-لغة-فعل واحد لوكيل واجهة المستخدم الرسومية المرئييدعم هذا النموذج سيناريوهات تطبيقات الويب والهواتف المحمولة من خلال فهم محتوى واجهة الشاشة وتنفيذ إجراءات تفاعلية مثل النقر والإدخال والتمرير. يمكنه إكمال مهام واجهة المستخدم المعقدة تلقائيًا. يستطيع ShowUI تحليل لقطات الشاشة وأوامر المستخدم للتنبؤ بالإجراءات التفاعلية على الواجهة.
该教程是 ShowUI 的一个演示 demo,算力资源采用 RTX 4090 。只需提供图片和任务指令,无论是在手机电脑上的截图还是其他类型的图片,ShowUI 都可以指出操作位置。
عرض التأثير

طريقة التشغيل (تستغرق حوالي 15 ثانية للتهيئة بعد بدء تشغيل الحاوية، ثم تنفيذ العمليات التالية)
1. بعد استنساخ الحاوية وبدء تشغيلها، حرك الماوس فوق عنوان API وانقر على السهم الذي يظهر. إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. يرجى الانتظار لمدة 30 ثانية ثم المحاولة مرة أخرى.

يظهر أدناه مثال لواجهة تم فتحها بنجاح:

2. بعد الدخول إلى صفحة العرض التوضيحي، قم برفع الصورة وأدخل الأمر في مربع الإدخال، ثم انقر فوق "إرسال". تشير النقطة الحمراء الموجودة في الصورة المولدة إلى منطقة التشغيل، وسيتم عرض إحداثيات موضع النقطة الحمراء أدناه.

المناقشة والتبادل
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [تبادل الدروس] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓
