HyperAIHyperAI

Command Palette

Search for a command to run...

تقرير شركة Phi-Ground Tech: تطوير الإدراك في التموضع البياني للواجهة

الملخص

مع تطور نماذج الاستدلال متعدد الوسائط، أصبحت الوكالات المستخدمة في الحاسوب (Computer Use Agents - CUAs)، التي تشبه جارفيس من فيلم "آيرون مان"، واقعًا ملموسًا. يُعد تثبيت واجهة المستخدم الرسومية (GUI grounding) عنصرًا أساسيًا لتمكين هذه الوكالات من تنفيذ إجراءات فعلية، تمامًا كما هو الحال في التحكم الميكانيكي في الروبوتات، وله تأثير مباشر على نجاح النظام أو فشله. ويحدد هذا العنصر الإجراءات مثل النقر والكتابة، فضلًا عن المعلمات المرتبطة بها، مثل الإحداثيات الخاصة بالنقر. حتى الآن، لا تزال نماذج التثبيت المتكاملة (end-to-end) تحقق دقة أقل من 65% على معايير صعبة مثل ScreenSpot-pro وUI-Vision، مما يدل على أنها ما زالت بعيدة عن الاستعداد للتطبيق العملي، خصوصًا أن خطأ واحد في النقر قد يؤدي إلى عواقب غير مقبولة. في هذه الدراسة، نقوم بتحليل تجريبي لتدريب نماذج التثبيت، مع استعراض التفاصيل من جمع البيانات حتى عملية تدريب النموذج. في النهاية، طوّرنا عائلة نماذج Phi-Ground، التي تحقق أفضل أداء ممكن (SOTA) على جميع خمسة معايير لاختبار التثبيت، ضمن النماذج التي لا تتجاوز 10 مليار معلمة في سياق الوكالات. وفي بيئة النموذج المتكاملة (end-to-end)، لا تزال نماذجنا تحقق نتائج متميزة بتحقيقها درجات بلغت 43.2 على ScreenSpot-pro و27.2 على UI-Vision. نعتقد أن التفاصيل المختلفة التي ناقشناها في هذه الورقة، إلى جانب نجاحاتنا وفشلنا، لا تُسهم فقط في توضيح طريقة بناء نماذج التثبيت، بل تُفيد أيضًا المهام الأخرى المتعلقة بالاستشعار. صفحة المشروع:https://zhangmiaosen2000.github.io/Phi-Ground/


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp