HyperAIHyperAI

Command Palette

Search for a command to run...

UI-AGILE: تحسين الوكلاء الرسوميين باستخدام التعلم التعزيزي الفعّال والتوجيه الدقيق أثناء الاستنتاج

Shuquan Lian Yuhang Wu Jia Ma Zihan Song Bingqi Chen et al

الملخص

مع ظهور نماذج اللغة الكبيرة متعددة الوسائط (MLLMs)، شهدت قدرات الوكلاء في واجهات المستخدم الرسومية (GUI) تقدمًا كبيرًا. ومع ذلك، لا تزال تقنيات التدريب والاستنتاج الحالية لوكلاء واجهات المستخدم الرسومية تعاني من تحديات في تصميمات الاستدلال، ووظائف المكافأة غير الفعالة، والضوضاء البصرية. لحل هذه المشكلات، نقدم إطار عمل UI-AGILE، وهو إطار شامل يعزز قدرات واجهات المستخدم الرسومية في مراحل التدريب والاستنتاج. من حيث التدريب، نقترح مجموعة من التحسينات في عملية التدريب المُشرف عليه (SFT): 1) دالة مكافأة مستمرة لتشجيع التعيين الدقيق (grounding) عالي الدقة؛ 2) مكافأة "التفكير البسيط" لموازنة التخطيط مع السرعة ودقة التعيين؛ و3) استراتيجية إعادة عينة تعتمد على التقسيم (Cropping-based Resampling) لتقليل تأثير نقص المكافأة وتحسين التعلم في المهام المعقدة. أما في مرحلة الاستنتاج، فنقدم منهجية "التعيين المُحلل مع الاختيار" (Decomposed Grounding with Selection)، وهي منهجية جديدة تُحسن بشكل كبير من دقة التعيين على الشاشات ذات الدقة العالية من خلال تقسيم الصورة إلى أجزاء أصغر يمكن التحكم بها. تُظهر التجارب أن إطار UI-AGILE يحقق أفضل أداء في معيارين: ScreenSpot-Pro وScreenSpot-v2. على سبيل المثال، باستخدام كلا من منهجيات التدريب والاستنتاج التي نقترحها، يحقق تحسينًا بنسبة 23% في دقة التعيين مقارنة بأفضل نموذج قاعدة (baseline) في ScreenSpot-Pro.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp