HyperAI
منذ 2 أيام

GTA1: وكيل تكبير وقت اختبار واجهة المستخدم الرسومية

Yan Yang, Dongxu Li, Yutong Dai, Yuhao Yang, Ziyang Luo, Zirui Zhao, Zhiyuan Hu, Junzhe Huang, Amrita Saha, Zeyuan Chen, Ran Xu, Liyuan Pan, Caiming Xiong, Junnan Li
GTA1: وكيل تكبير وقت اختبار واجهة المستخدم الرسومية
الملخص

الوكلاء ذوو الواجهة الرسومية للمستخدم (GUI) يعملون بشكل مستقل عبر المنصات (مثل لينكس) لإتمام المهام من خلال التفاعل مع العناصر البصرية. بوجه خاص، يتم تفكيك تعليمات المستخدم إلى سلسلة من اقتراحات الأفعال، كل منها يتوافق مع تفاعل مع واجهة المستخدم الرسومية (GUI). بعد كل فعل، يراقب الوكيل البيئة المحدثة لواجهة المستخدم الرسومية للتخطيط للخطوة التالية.ومع ذلك، تظهر تحديان رئيسيان: أولاً، حل الغموض في تخطيط المهمة (أي سلسلة اقتراحات الأفعال)، حيث يكون اختيار الخطة المناسبة غير بسيط نظرًا لوجود العديد من الخطط الصالحة؛ ثانيًا، تحقيق دقة عالية عند ربط الأفعال بالعناصر البصرية المعقدة ذات الدقة العالية، أي التفاعل بدقة مع الأهداف البصرية.تستكشف هذه الورقة البحثية التحديين المشار إليهما سابقًا باستخدام وكيل توسع وقت الاختبار لواجهة المستخدم الرسومية الخاص بنا، والمعروف باسم GTA1. أولاً، لاختيار أكثر اقتراحات الأفعال ملاءمة، نقدم طريقة توسع وقت الاختبار. في كل خطوة، نأخذ عينات من عدة اقتراحات مرشحة للأفعال ونستفيد من نموذج الحكم لتقييم واختيار الأكثر ملاءمة. يتم تبادل الحسابات مقابل جودة أفضل في القرارات عن طريق أخذ العينات بالتوازي، مما يقصر خطوات إجراء المهمة ويحسن الأداء الكلي. ثانيًا، نقترح نموذجًا يحقق دقة أعلى عند ربط الاقتراح المختار للأفعال بالعناصر البصرية المقابلة له. الفكرة الأساسية لدينا هي أن التعلم التعزيزي (RL) يسهل ربط العناصر البصرية من خلال التوافق الذاتي للأهداف وتعزيز النقر الناجح على عناصر الواجهة.تجريبياً، تثبت طريquetnosا لدينا أداءً فائقًا حسب الحالة الحالية في مجموعة متنوعة من المقاييس. على سبيل المثال، يصل GTA1-7B إلى دقة 50.1٪ و92.4٪ و67.7٪ على مقاييس Screenspot-Pro وScreenspot-V2 وOSWorld-G على التوالي. عند استخدامه مع مخطط يستخدم استراتيجيتنا للتوسع وقت الاختبار، فإنه يظهر أداءً فائقًا حسب الحالة الحالية للوكيل (مثل نسبة نجاح المهمة 45.2٪ على OSWorld). قمنا بإتاحة شفرتنا المصدرية والنماذج الخاصة بنا هنا.请注意,最后一句中的 "قمنا بإتاحة شفرتنا المصدرية والنماذج الخاصة بنا هنا" 是一个直接翻译,如果需要提供具体的链接或位置,可以将其替换为更具体的信息。例如:"قمنا بإتاحة شفرتنا المصدرية والنماذج الخاصة بنا على الموقع [رابط الموقع]".