Phi-Ground Tech Report: Fortschritte in der Wahrnehmung bei GUI-Grundlagen

Mit der Entwicklung multimodaler Reasoning-Modelle werden Computer-Use-Agenten (Computer Use Agents, CUAs), vergleichbar mit Jarvis aus „Iron Man“, zunehmend Realität. Die GUI-Grundlage (GUI grounding) ist eine zentrale Komponente für CUAs, um tatsächliche Aktionen auszuführen – vergleichbar mit der Mechaniksteuerung in der Robotik – und bestimmt direkt den Erfolg oder Misserfolg des Systems. Sie steuert Aktionen wie Klicken und Eingeben von Text sowie zugehörige Parameter wie die Koordinaten für Klicks. Aktuelle End-to-End-Grundmodellierungen erreichen auf anspruchsvollen Benchmarks wie ScreenSpot-pro und UI-Vision noch nicht einmal 65 % Genauigkeit, was darauf hindeutet, dass sie weit davon entfernt sind, für den Einsatz bereit zu sein – bereits ein einzelner Fehlklick kann unakzeptable Folgen haben. In dieser Arbeit führen wir eine empirische Studie zum Training von Grundmodellen durch und untersuchen Details von der Datensammlung bis hin zur Modelltrainingsphase. Schließlich entwickeln wir die Phi-Ground-Modellfamilie, die im Agenten-Setting die bisher beste Leistung auf allen fünf Grundierungsbenchmarks für Modelle unter 10 Milliarden Parametern erzielt. Im End-to-End-Modell-Setting erreicht unser Modell weiterhin SOTA-Ergebnisse mit Werten von 43,2 auf ScreenSpot-pro und 27,2 auf UI-Vision. Wir sind überzeugt, dass die in diesem Paper diskutierten Details sowie unsere Erfolge und Misserfolge nicht nur das Verständnis für die Konstruktion von Grundmodellen vertiefen, sondern auch anderen Perzeptionsaufgaben zugutekommen. Projekt-Homepage:https://zhangmiaosen2000.github.io/Phi-Ground/