HyperAIHyperAI

Command Palette

Search for a command to run...

InfiGUI-G1: Fortschritt bei der GUI-Grundlegung durch Optimierung einer adaptiven Erkundungsstrategie

Zusammenfassung

Die Einführung multimodaler großer Sprachmodelle (Multimodal Large Language Models, MLLMs) hat die Entwicklung autonomer Agenten vorangetrieben, die grafische Benutzeroberflächen (Graphical User Interfaces, GUIs) ausschließlich auf der Basis rein visueller Eingaben bedienen. Eine zentrale Herausforderung besteht darin, natürliche Sprachanweisungen robust zu verankern. Dazu ist eine präzise räumliche Ausrichtung erforderlich, die die Koordinaten jedes UI-Elements genau lokalisiert, und vor allem eine korrekte semantische Ausrichtung, die die Anweisungen den funktional geeigneten UI-Elementen zuordnet. Obwohl die Verstärkende Lernmethode mit überprüfbarer Belohnung (Reinforcement Learning with Verifiable Rewards, RLVR) sich als wirksam erwiesen hat, um die räumliche Ausrichtung dieser MLLMs zu verbessern, stellen wir fest, dass eine ineffiziente Exploration die semantische Ausrichtung behindert und somit die Lernfähigkeit des Modells für komplexe semantische Zusammenhänge einschränkt. Um dieses Explorationsproblem zu lösen, präsentieren wir Adaptive Exploration Policy Optimization (AEPO), einen neuen Rahmen für Policy-Optimierung. AEPO setzt eine Multi-Antwort-Generierungsstrategie ein, um eine breitere Exploration zu fördern, die anschließend durch eine theoretisch fundierte Adaptive Exploration Reward (AER)-Funktion geleitet wird, die aus den Grundprinzipien der Effizienz η = U/C abgeleitet ist. Die von AEPO trainierten Modelle, InfiGUI-G1-3B und InfiGUI-G1-7B, erreichen neue SOTA-Ergebnisse (state-of-the-art) auf mehreren anspruchsvollen GUI-Verankerungsbenchmarks und erzielen gegenüber der einfachen RLVR-Baseline signifikante relative Verbesserungen von bis zu 9,0 % auf Benchmarks, die auf Generalisierungsfähigkeit und semantisches Verständnis abzielen. Die Ressourcen sind unter https://github.com/InfiXAI/InfiGUI-G1 verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp