HyperAI
منذ 14 ساعات

تقرير شركة Phi-Ground Tech: تطوير الإدراك في التموضع البياني للواجهة

Miaosen Zhang, Ziqiang Xu, Jialiang Zhu, Qi Dai, Kai Qiu, Yifan Yang, Chong Luo, Tianyi Chen, Justin Wagle, Tim Franklin, Baining Guo
تقرير شركة Phi-Ground Tech: تطوير الإدراك في التموضع البياني للواجهة
الملخص

مع تطور نماذج الاستدلال متعدد الوسائط، أصبحت الوكالات المستخدمة في الحاسوب (Computer Use Agents - CUAs)، التي تشبه جارفيس من فيلم "آيرون مان"، واقعًا ملموسًا. يُعد تثبيت واجهة المستخدم الرسومية (GUI grounding) عنصرًا أساسيًا لتمكين هذه الوكالات من تنفيذ إجراءات فعلية، تمامًا كما هو الحال في التحكم الميكانيكي في الروبوتات، وله تأثير مباشر على نجاح النظام أو فشله. ويحدد هذا العنصر الإجراءات مثل النقر والكتابة، فضلًا عن المعلمات المرتبطة بها، مثل الإحداثيات الخاصة بالنقر. حتى الآن، لا تزال نماذج التثبيت المتكاملة (end-to-end) تحقق دقة أقل من 65% على معايير صعبة مثل ScreenSpot-pro وUI-Vision، مما يدل على أنها ما زالت بعيدة عن الاستعداد للتطبيق العملي، خصوصًا أن خطأ واحد في النقر قد يؤدي إلى عواقب غير مقبولة. في هذه الدراسة، نقوم بتحليل تجريبي لتدريب نماذج التثبيت، مع استعراض التفاصيل من جمع البيانات حتى عملية تدريب النموذج. في النهاية، طوّرنا عائلة نماذج Phi-Ground، التي تحقق أفضل أداء ممكن (SOTA) على جميع خمسة معايير لاختبار التثبيت، ضمن النماذج التي لا تتجاوز 10 مليار معلمة في سياق الوكالات. وفي بيئة النموذج المتكاملة (end-to-end)، لا تزال نماذجنا تحقق نتائج متميزة بتحقيقها درجات بلغت 43.2 على ScreenSpot-pro و27.2 على UI-Vision. نعتقد أن التفاصيل المختلفة التي ناقشناها في هذه الورقة، إلى جانب نجاحاتنا وفشلنا، لا تُسهم فقط في توضيح طريقة بناء نماذج التثبيت، بل تُفيد أيضًا المهام الأخرى المتعلقة بالاستشعار. صفحة المشروع:https://zhangmiaosen2000.github.io/Phi-Ground/