HyperAI
il y a 14 heures

Rapport technique de Phi-Ground : Progresser dans la perception de l'alignement GUI

Miaosen Zhang, Ziqiang Xu, Jialiang Zhu, Qi Dai, Kai Qiu, Yifan Yang, Chong Luo, Tianyi Chen, Justin Wagle, Tim Franklin, Baining Guo
Rapport technique de Phi-Ground : Progresser dans la perception de l'alignement GUI
Résumé

Grâce au développement des modèles de raisonnement multimodaux, les agents informatiques (Computer Use Agents, CUAs), analogues à Jarvis dans Iron Man, deviennent une réalité. L’ancrage visuel (GUI grounding) constitue un composant central permettant aux CUAs d’exécuter des actions concrètes, de manière similaire au contrôle mécanique en robotique, et conditionne directement le succès ou l’échec du système. Il détermine des actions telles que les clics et la saisie, ainsi que des paramètres associés comme les coordonnées des clics. Les modèles d’ancrage entièrement end-to-end actuels atteignent encore moins de 65 % de précision sur des benchmarks exigeants tels que ScreenSpot-pro et UI-Vision, ce qui indique qu’ils sont loin d’être prêts à être déployés. Une erreur de clic unique pouvant entraîner des conséquences inacceptables. Dans ce travail, nous menons une étude empirique sur l’entraînement des modèles d’ancrage, en examinant en détail chaque étape, de la collecte des données à l’entraînement du modèle. En fin de compte, nous avons développé la famille de modèles Phi-Ground, qui atteint des performances de pointe (SOTA) sur l’ensemble des cinq benchmarks d’ancrage pour des modèles de moins de 10 milliards de paramètres dans un cadre d’agent. Dans un cadre de modèle end-to-end, notre modèle obtient toujours des résultats SOTA, avec des scores de 43,2 sur ScreenSpot-pro et de 27,2 sur UI-Vision. Nous pensons que les divers détails abordés dans cet article, ainsi que nos réussites et échecs, contribuent non seulement à clarifier la construction de modèles d’ancrage, mais aussi à améliorer d’autres tâches de perception. Page du projet :https://zhangmiaosen2000.github.io/Phi-Ground/