HyperAI
منذ 9 أيام

واجهة المستخدم - G^2: نمذجة المكافأة الطبيعية لتحديد واجهة المستخدم

Fei Tang, Zhangxuan Gu, Zhengxi Lu, Xuyang Liu, Shuheng Shen, Changhua Meng, Wen Wang, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang
واجهة المستخدم - G^2: نمذجة المكافأة الطبيعية لتحديد واجهة المستخدم
الملخص

تُسهم خريطة التثبيت الرسومية (GUI) في ربط التعليمات باللغة الطبيعية بمواقع واجهة المستخدم بدقة، مما يمكّن التفاعل الذاتي. تعتمد الطرق الحالية للتعلم التعزيزي على مكافآت ثنائية تتعامل مع العناصر كأهداف "إما ناجحة أو فاشلة"، مما يؤدي إلى إشارات نادرة تتجاهل الطبيعة المستمرة للتفاعلات المكانية. مستوحاة من سلوك الإنسان في النقر الذي يشكل توزيعات غاوسيّة طبيعية مركّزة حول العناصر المستهدفة، نقدّم مكافآت التثبيت الغاوسيّة لواجهة المستخدم (GUI-G^2)، وهو إطار مكافآت مبني على مبادئ علمية يُمثل العناصر الرسومية كتوزيعات غاوسيّة مستمرة على سطح الواجهة. يحتوي إطار GUI-G^2 على آلتين متكاملتين: مكافآت النقاط الغاوسيّة التي تُمكّن من تحديد الموقع بدقة عبر توزيعات تتناقص بشكل أسيّ مركّزة حول مراكز العناصر، بينما تقيّم مكافآت التغطية التوافق المكاني عن طريق قياس التداخل بين التوزيعات الغاوسيّة المُقدّرة والتوزيعات المستهدفة. لمعالجة أبعاد العناصر المختلفة، نطوّر آلية تباين تكيفية تُعدّل توزيعات المكافآت بناءً على أبعاد العناصر. يحوّل هذا الإطار التثبيت الرسومي من تصنيف ثنائي نادر إلى تحسين مستمر كثيف، حيث تُولّد التوزيعات الغاوسيّة إشارات تدرج غنية توجه النماذج إلى المواقع المثلى للتفاعل. أظهرت تجارب واسعة على معايير ScreenSpot وScreenSpot-v2 وScreenSpot-Pro أن GUI-G^2 يتفوّق بشكل كبير على أحدث طريقة، وهي UI-TARS-72B، حيث تصل أفضل تحسين إلى 24.7% على معيار ScreenSpot-Pro. وخلصت تحليلاتنا إلى أن النمذجة المستمرة توفر مقاومة أفضل للتغيرات في الواجهة وتحسينًا في التعميم على التخطيطات غير المرئية، مما يُشكّل منهجية جديدة لاستدلال المكان في مهام التفاعل مع واجهات المستخدم الرسومية (GUI).