UI-AGILE: تحسين الوكلاء الرسوميين باستخدام التعلم التعزيزي الفعّال والتوجيه الدقيق أثناء الاستنتاج

مع ظهور نماذج اللغة الكبيرة متعددة الوسائط (MLLMs)، شهدت قدرات الوكلاء في واجهات المستخدم الرسومية (GUI) تقدمًا كبيرًا. ومع ذلك، لا تزال تقنيات التدريب والاستنتاج الحالية لوكلاء واجهات المستخدم الرسومية تعاني من تحديات في تصميمات الاستدلال، ووظائف المكافأة غير الفعالة، والضوضاء البصرية. لحل هذه المشكلات، نقدم إطار عمل UI-AGILE، وهو إطار شامل يعزز قدرات واجهات المستخدم الرسومية في مراحل التدريب والاستنتاج. من حيث التدريب، نقترح مجموعة من التحسينات في عملية التدريب المُشرف عليه (SFT): 1) دالة مكافأة مستمرة لتشجيع التعيين الدقيق (grounding) عالي الدقة؛ 2) مكافأة "التفكير البسيط" لموازنة التخطيط مع السرعة ودقة التعيين؛ و3) استراتيجية إعادة عينة تعتمد على التقسيم (Cropping-based Resampling) لتقليل تأثير نقص المكافأة وتحسين التعلم في المهام المعقدة. أما في مرحلة الاستنتاج، فنقدم منهجية "التعيين المُحلل مع الاختيار" (Decomposed Grounding with Selection)، وهي منهجية جديدة تُحسن بشكل كبير من دقة التعيين على الشاشات ذات الدقة العالية من خلال تقسيم الصورة إلى أجزاء أصغر يمكن التحكم بها. تُظهر التجارب أن إطار UI-AGILE يحقق أفضل أداء في معيارين: ScreenSpot-Pro وScreenSpot-v2. على سبيل المثال، باستخدام كلا من منهجيات التدريب والاستنتاج التي نقترحها، يحقق تحسينًا بنسبة 23% في دقة التعيين مقارنة بأفضل نموذج قاعدة (baseline) في ScreenSpot-Pro.