HyperAI
il y a 2 jours

UI-AGILE : Approfondir les agents d'interface utilisateur avec un apprentissage par renforcement efficace et une ancrage précis au moment de l'inférence

Shuquan Lian, Yuhang Wu, Jia Ma, Zihan Song, Bingqi Chen, et al
UI-AGILE : Approfondir les agents d'interface utilisateur avec un apprentissage par renforcement efficace et une ancrage précis au moment de l'inférence
Résumé

L'émergence des Modèles de Langage à Grande Échelle Multimodaux (MLLMs) a permis des progrès importants dans les capacités des agents d'interface graphique (GUI). Cependant, les techniques existantes de formation et d'inférence des agents GUI souffrent encore d'un dilemme concernant les conceptions de raisonnement, les récompenses inefficaces et le bruit visuel. Pour résoudre ces problèmes, nous introduisons UI-AGILE, un cadre complet visant à améliorer les agents GUI à la fois pendant la phase de formation et celle d'inférence. Concernant la formation, nous proposons une série d'améliorations au processus de Réglage Supervisé (SFT) : 1) une fonction de récompense continue visant à inciter une ancrage de haute précision ; 2) une récompense « Simple Thinking » permettant d'équilibrer la planification avec la vitesse et la précision de l'ancrage ; et 3) une stratégie de Recampionnage basée sur le Recadrage pour atténuer le problème des récompenses rares et améliorer l'apprentissage sur des tâches complexes. Pour l'inférence, nous présentons un méthode d'Anchorage Décomposé avec Sélection, une approche innovante qui améliore de façon significative la précision de l'ancrage sur des écrans à haute résolution en divisant l'image en parties plus petites et plus gérables. Les expériences montrent que UI-AGILE atteint des performances de pointe sur deux benchmarks, ScreenSpot-Pro et ScreenSpot-v2. Par exemple, l'utilisation de nos méthodes de formation et d'inférence proposées permet d'obtenir une amélioration de 23 % en précision d'ancrage par rapport à la meilleure base (baseline) sur ScreenSpot-Pro.