GUI-G^2: Gaussian Reward Modeling für GUI Grounding

Die Graphical User Interface (GUI)-Basiskarten ermöglichen es, natürliche Sprachanweisungen präzise auf Schnittstellenpositionen abzubilden, um autonome Interaktionen zu ermöglichen. Aktuelle Ansätze im Verstärkenden Lernen verwenden binäre Belohnungen, die Elemente als „Treffer oder Fehlschlag“ behandeln und dadurch seltene Signale erzeugen, die die kontinuierliche Natur räumlicher Interaktionen ignorieren. Angeregt durch das menschliche Klickverhalten, das natürlicherweise Gauss-Verteilungen um die Zielobjekte bildet, führen wir GUI Gaussian Grounding Rewards (GUI-G^2) ein, ein konsistentes Belohnungssystem, das GUI-Elemente als kontinuierliche Gauss-Verteilungen auf der Schnittstellenfläche modelliert. GUI-G^2 integriert zwei synergistische Mechanismen: Gauss-Punkt-Belohnungen ermöglichen eine präzise Lokalisierung durch exponentiell abklingende Verteilungen, die um die Schwerpunkte der Elemente zentriert sind, während Coverage-Belohnungen die räumliche Ausrichtung bewerten, indem sie den Überlappungsgrad zwischen vorhergesagten Gauss-Verteilungen und Zielbereichen messen. Um unterschiedliche Elementgrößen zu berücksichtigen, entwickeln wir eine anpassbare Varianzmechanik, die die Belohnungsverteilungen an die Dimensionen der Elemente anpasst. Dieses Framework verändert die GUI-Basis von einer spärlichen binären Klassifizierung in eine dichte kontinuierliche Optimierung, bei der Gauss-Verteilungen reiche Gradientensignale erzeugen, die Modelle zu optimalen Interaktionspositionen leiten. Umfassende Experimente auf den Benchmarks ScreenSpot, ScreenSpot-v2 und ScreenSpot-Pro zeigen, dass GUI-G^2 den aktuellen Stand der Technik, UI-TARS-72B, deutlich übertrifft, wobei der größte Verbesserungswert mit 24,7 % auf ScreenSpot-Pro erreicht wird. Unsere Analyse ergibt, dass die kontinuierliche Modellierung eine bessere Robustheit gegenüber Schnittstellenvariationen und eine verbesserte Generalisierbarkeit für unbekannte Layouts ermöglicht und somit ein neues Paradigma für räumliches Denken bei GUI-Interaktionen etabliert.