الملخص

استخدام واجهة المستخدم الرسومية (GUI) للتفاعل بين الإنسان والحاسوب ضروري للوصول إلى مجموعة واسعة من الأدوات الرقمية. تشير التطورات الحديثة في نماذج اللغة المرئية (VLMs) إلى القدرة المقنعة على تطوير وكلاء متعددي الاستخدامات لمساعدة البشر في إنجاز مهام التنقل عبر واجهة المستخدم الرسومية. ومع ذلك، فإن النماذج الحالية للغة المرئية تواجه تحديات فيما يتعلق بالقدرات الأساسية (التعرف الضوئي على الحروف OCR والتثبيت grounding) ومعرفة واجهة المستخدم الرسومية (وظائف وأساليب التحكم في عناصر GUI)، مما يمنعها من أن تصبح وكلاء GUI عملية. لحل هذه التحديات، نقدم حزمة GUICourse من قواعد البيانات لتدريب وكلاء GUI المرتكزة على الصور من النماذج العامة للغة المرئية. أولاً، نقدم مجموعة بيانات GUIEnv لتقوية قدرات OCR والتثبيت في نماذج اللغة المرئية. ثانياً، نقدم مجموعة بيانات GUIAct وGUIChat لتعميق معرفتها بعناصر واجهة المستخدم الرسومية والتفاعلات. تظهر التجارب أن وكيلنا لـ GUI أداء أفضل في المهام الشائعة لـ GUI مقارنة بنماذج اللغة المرئية الأساسية. وحتى وكيل GUI ذو الحجم الصغير (مع 3.1 مليار معامل) يمكنه العمل بشكل جيد في المهام ذات الخطوة الواحدة والمهام المتعددة الخطوات. أخيراً، نقوم بتحليل الاختلافات المختلفة في مرحلة التدريب لهذا الوكيل من خلال دراسة الإلغاء الجزئي (ablation study). تم إطلاق كودنا المصدر وقواعد بياناتنا على الرابط https://github.com/yiye3/GUICourse.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

دورة GUI: من نماذج اللغة والرؤية العامة إلى وكلاء واجهة المستخدم الرسومية المتنوعة

Wentong Chen extsuperscript1* Junbo Cui extsuperscript2* Jinyi Hu extsuperscript2* Yujia Qin extsuperscript2 Junjie Fang extsuperscript3 Yue Zhao extsuperscript4 Chongyi Wang extsuperscript5 Jun Liu extsuperscript6 Guirong Chen extsuperscript1 Yupeng Huo extsuperscript14 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

دورة GUI: من نماذج اللغة والرؤية العامة إلى وكلاء واجهة المستخدم الرسومية المتنوعة

Wentong Chen extsuperscript1* Junbo Cui extsuperscript2* Jinyi Hu extsuperscript2* Yujia Qin extsuperscript2 Junjie Fang extsuperscript3 Yue Zhao extsuperscript4 Chongyi Wang extsuperscript5 Jun Liu extsuperscript6 Guirong Chen extsuperscript1 Yupeng Huo extsuperscript14 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

دورة GUI: من نماذج اللغة والرؤية العامة إلى وكلاء واجهة المستخدم الرسومية المتنوعة

Wentong Chen extsuperscript1* Junbo Cui extsuperscript2* Jinyi Hu extsuperscript2* Yujia Qin extsuperscript2 Junjie Fang extsuperscript3 Yue Zhao extsuperscript4 Chongyi Wang extsuperscript5 Jun Liu extsuperscript6 Guirong Chen extsuperscript1 Yupeng Huo extsuperscript14 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Wentong Chen extsuperscript1* Junbo Cui extsuperscript2* Jinyi Hu extsuperscript2* Yujia Qin extsuperscript2 Junjie Fang extsuperscript3 Yue Zhao extsuperscript4 Chongyi Wang extsuperscript5 Jun Liu extsuperscript6 Guirong Chen extsuperscript1 Yupeng Huo extsuperscript1

Wentong Chen extsuperscript1* Junbo Cui extsuperscript2* Jinyi Hu extsuperscript2* Yujia Qin extsuperscript2 Junjie Fang extsuperscript3 Yue Zhao extsuperscript4 Chongyi Wang extsuperscript5 Jun Liu extsuperscript6 Guirong Chen extsuperscript1 Yupeng Huo extsuperscript1

Wentong Chen extsuperscript1* Junbo Cui extsuperscript2* Jinyi Hu extsuperscript2* Yujia Qin extsuperscript2 Junjie Fang extsuperscript3 Yue Zhao extsuperscript4 Chongyi Wang extsuperscript5 Jun Liu extsuperscript6 Guirong Chen extsuperscript1 Yupeng Huo extsuperscript1