HyperAIHyperAI

Command Palette

Search for a command to run...

Phi-Ground Tech Report: Fortschritte in der Wahrnehmung bei GUI-Grundlagen

Zusammenfassung

Mit der Entwicklung multimodaler Reasoning-Modelle werden Computer-Use-Agenten (Computer Use Agents, CUAs), vergleichbar mit Jarvis aus „Iron Man“, zunehmend Realität. Die GUI-Grundlage (GUI grounding) ist eine zentrale Komponente für CUAs, um tatsächliche Aktionen auszuführen – vergleichbar mit der Mechaniksteuerung in der Robotik – und bestimmt direkt den Erfolg oder Misserfolg des Systems. Sie steuert Aktionen wie Klicken und Eingeben von Text sowie zugehörige Parameter wie die Koordinaten für Klicks. Aktuelle End-to-End-Grundmodellierungen erreichen auf anspruchsvollen Benchmarks wie ScreenSpot-pro und UI-Vision noch nicht einmal 65 % Genauigkeit, was darauf hindeutet, dass sie weit davon entfernt sind, für den Einsatz bereit zu sein – bereits ein einzelner Fehlklick kann unakzeptable Folgen haben. In dieser Arbeit führen wir eine empirische Studie zum Training von Grundmodellen durch und untersuchen Details von der Datensammlung bis hin zur Modelltrainingsphase. Schließlich entwickeln wir die Phi-Ground-Modellfamilie, die im Agenten-Setting die bisher beste Leistung auf allen fünf Grundierungsbenchmarks für Modelle unter 10 Milliarden Parametern erzielt. Im End-to-End-Modell-Setting erreicht unser Modell weiterhin SOTA-Ergebnisse mit Werten von 43,2 auf ScreenSpot-pro und 27,2 auf UI-Vision. Wir sind überzeugt, dass die in diesem Paper diskutierten Details sowie unsere Erfolge und Misserfolge nicht nur das Verständnis für die Konstruktion von Grundmodellen vertiefen, sondern auch anderen Perzeptionsaufgaben zugutekommen. Projekt-Homepage:https://zhangmiaosen2000.github.io/Phi-Ground/


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp