HyperAI
vor 2 Tagen

UI-AGILE: GUI-Agenten mit effektivem Verstärkendem Lernen und präziser Inferenzzeit-Verankerung weiterentwickeln

Shuquan Lian, Yuhang Wu, Jia Ma, Zihan Song, Bingqi Chen, et al
UI-AGILE: GUI-Agenten mit effektivem Verstärkendem Lernen und präziser Inferenzzeit-Verankerung weiterentwickeln
Abstract

Die Einführung von Multimodalen Großsprachmodellen (MLLMs) hat zu erheblichen Fortschritten bei den Fähigkeiten von Graphical User Interface (GUI)-Agenten geführt. Dennoch leiden bestehende Techniken zur Trainings- und Inferenzphase von GUI-Agenten weiterhin an einem Dilemma in Bezug auf die Entwurfsmethoden für Reasoning, effektiven Belohnungen und visueller Störung. Um diese Probleme zu lösen, führen wir UI-AGILE ein, einen umfassenden Rahmen, der die GUI-Agenten sowohl in der Trainings- als auch in der Inferenzphase verbessert. Für das Training schlagen wir eine Reihe von Verbesserungen für den Prozess des Supervised Fine-Tuning (SFT) vor: 1) eine kontinuierliche Belohnungsfunktion, um eine hohe Präzision bei der Grundierung (Grounding) zu fördern; 2) eine „Simple Thinking“-Belohnung, um die Planung mit Geschwindigkeit und der Genauigkeit der Grundierung in Einklang zu bringen; und 3) eine Cropping-basierte Resampling-Strategie, um das Problem der spärlichen Belohnung zu mildern und das Lernen auf komplexen Aufgaben zu verbessern. Für die Inferenzphase präsentieren wir „Decomposed Grounding with Selection“, eine neuartige Methode, die die Grundierungsgenauigkeit auf hochauflösenden Bildschirmen erheblich verbessert, indem sie das Bild in kleinere, handhabbare Teile aufteilt. Experimente zeigen, dass UI-AGILE die führende Leistung auf zwei Benchmarks, ScreenSpot-Pro und ScreenSpot-v2, erzielt. Zum Beispiel führt die Kombination beider vorgeschlagenen Trainings- und Inferenzverbesserungen zu einer Steigerung der Grundierungsgenauigkeit um 23 % gegenüber dem besten Baseline auf ScreenSpot-Pro.