ShowUI: نموذج واحد للرؤية واللغة والفعل لممثل البصريات(GUI)

بناء مساعدي واجهة المستخدم الرسومية (GUI) يحمل وعدًا كبيرًا بتعزيز إنتاجية سير العمل البشري. بينما تعتمد معظم الوكلاء على أساس اللغة، باستخدام واجهات برمجة التطبيقات ذات المصدر المغلق والمعلومات النصية الغنية (مثل HTML أو شجرة الوصولية)، فإنها تظهر قيودًا في إدراك العناصر المرئية لواجهة المستخدم كما يفعل البشر، مما يؤكد الحاجة إلى وكيل مرئي لواجهة المستخدم. في هذا البحث، نطور نموذجًا للرؤية واللغة والعمل في العالم الرقمي، أطلقنا عليه اسم ShowUI، والذي يتميز بالابتكارات التالية: (i) اختيار رموز بصرية موجهة بواسطة واجهة المستخدم لتقليل التكاليف الحسابية من خلال صياغة الصور الشاشة كرسم بياني متصل بواجهة المستخدم، وتحديد علاقاتها الزائدة بشكل تكيفي واستخدامها كمعيار لاختيار الرموز أثناء كتل الانتباه الذاتي؛ (ii) تدفق مرئي-لغوي-عملي متداخل يوحّد بكفاءة الاحتياجات المتعددة داخل مهام واجهة المستخدم، مما يمكن من إدارة فعالة للتاريخ البصري-العملي في التنقل أو ربط سلاسل الاستفسار-العمل المتعددة الدورات مع كل صورة شاشة لتحسين كفاءة التدريب؛ (iii) مجموعات بيانات تعليمات صغيرة الحجم عالية الجودة لواجهة المستخدم من خلال حuration البيانات بعناية واستخدام استراتيجية إعادة التحليل لإدارة الاختلال الكبير في أنواع البيانات. ومع هذه المكونات، حقق ShowUI، وهو نموذج خفيف الوزن يتضمن ملياري معامل ويستخدم 256 ألف نقطة بيانات، دقة قوية تبلغ 75.1٪ في تحديد الصور الشاشة دون تعلم سابق. كما أن اختيار الرموز الموجه بواسطة واجهة المستخدم يقلل بنسبة 33٪ من الرموز البصرية الزائدة أثناء التدريب ويحسن الأداء بمقدار 1.4 مرة. تجارب التنقل عبر بيئات Mind2Web الإلكترونية وAITW المحمولة وMiniWob عبر الإنترنت تسليط الضوء أيضًا على فعالية نموذجنا وإمكاناته في تقدم وكيل مرئي لواجهة المستخدم. يمكن الحصول على النماذج من https://github.com/showlab/ShowUI.