InfiGUI-G1: Fortschritt bei der GUI-Grundlegung durch Optimierung einer adaptiven Erkundungsstrategie

Die Einführung multimodaler großer Sprachmodelle (Multimodal Large Language Models, MLLMs) hat die Entwicklung autonomer Agenten vorangetrieben, die grafische Benutzeroberflächen (Graphical User Interfaces, GUIs) ausschließlich auf der Basis rein visueller Eingaben bedienen. Eine zentrale Herausforderung besteht darin, natürliche Sprachanweisungen robust zu verankern. Dazu ist eine präzise räumliche Ausrichtung erforderlich, die die Koordinaten jedes UI-Elements genau lokalisiert, und vor allem eine korrekte semantische Ausrichtung, die die Anweisungen den funktional geeigneten UI-Elementen zuordnet. Obwohl die Verstärkende Lernmethode mit überprüfbarer Belohnung (Reinforcement Learning with Verifiable Rewards, RLVR) sich als wirksam erwiesen hat, um die räumliche Ausrichtung dieser MLLMs zu verbessern, stellen wir fest, dass eine ineffiziente Exploration die semantische Ausrichtung behindert und somit die Lernfähigkeit des Modells für komplexe semantische Zusammenhänge einschränkt. Um dieses Explorationsproblem zu lösen, präsentieren wir Adaptive Exploration Policy Optimization (AEPO), einen neuen Rahmen für Policy-Optimierung. AEPO setzt eine Multi-Antwort-Generierungsstrategie ein, um eine breitere Exploration zu fördern, die anschließend durch eine theoretisch fundierte Adaptive Exploration Reward (AER)-Funktion geleitet wird, die aus den Grundprinzipien der Effizienz η = U/C abgeleitet ist. Die von AEPO trainierten Modelle, InfiGUI-G1-3B und InfiGUI-G1-7B, erreichen neue SOTA-Ergebnisse (state-of-the-art) auf mehreren anspruchsvollen GUI-Verankerungsbenchmarks und erzielen gegenüber der einfachen RLVR-Baseline signifikante relative Verbesserungen von bis zu 9,0 % auf Benchmarks, die auf Generalisierungsfähigkeit und semantisches Verständnis abzielen. Die Ressourcen sind unter https://github.com/InfiXAI/InfiGUI-G1 verfügbar.