HyperAIHyperAI
منذ 2 أشهر

التنقل في العالم الرقمي كما يفعل البشر: التأصيل البصري الشامل للوكلاء الرسوميين

Gou, Boyu ; Wang, Ruohan ; Zheng, Boyuan ; Xie, Yanan ; Chang, Cheng ; Shu, Yiheng ; Sun, Huan ; Su, Yu
التنقل في العالم الرقمي كما يفعل البشر: التأصيل البصري الشامل للوكلاء الرسوميين
الملخص

النماذج اللغوية الكبيرة متعددة الوسائط (MLLMs) تعيد تعريف قدرات وكلاء واجهة المستخدم الرسومية (GUI)، مما يسهل انتقالهم من محاكاة مراقبة إلى تطبيقات معقدة في العالم الحقيقي عبر منصات مختلفة. ومع ذلك، فإن فعالية هذه الوكلاء تعتمد على متانة قدرتهم على التأصيل. يعتمد الوكلاء الحاليون لواجهة المستخدم الرسومية بشكل أساسي على تمثيلات نصية مثل HTML أو أشجار الإمكانية، والتي، رغم فائدتها، غالبًا ما تُدخل الضوضاء والقصور وتزيد العبء الحسابي.في هذا البحث، ندعو إلى جسد بشري مماثل لوكلاء واجهة المستخدم الرسومية التي تدرك البيئة بالكامل بصريًا وتقوم بعمليات مباشرة على مستوى البكسل في واجهة المستخدم الرسومية. المفتاح هو نماذج التأصيل البصري التي يمكنها رسم خرائط دقيقة للتعبيرات المتنوعة عن عناصر واجهة المستخدم الرسومية إلى إحداثياتها في الواجهة عبر منصات مختلفة. نظهر أن وصفًا بسيطًا يتضمن بيانات اصطناعية قائمة على الويب وإجراء تعديل طفيف على بنية LLaVA فعال بشكل مدهش في تدريب هذه النماذج البصرية للتأصيل.قمنا بتجميع أكبر مجموعة بيانات حتى الآن لمهمة التأصيل البصري لواجهة المستخدم الرسومية، تحتوي على 10 ملايين عنصر من واجهة المستخدم الرسومية وتعبيراتها المرجعية فوق 1.3 مليون صورة شاشة، واستخدمناها لتدريب UGround، وهو نموذج تأصيل بصري شامل قوي لوكلاء واجهة المستخدم الرسومية. أظهرت النتائج التجريبية على ستة مقاييس تغطي ثلاث فئات (التأصيل، وكيل غير متصل بالشبكة، وكيل متصل بالشبكة) أن 1) UGround يتفوق بشكل كبير على النماذج البصرية للتأصيل الحالية لوكلاء واجهة المستخدم الرسومية بنسبة تصل إلى 20% مطلقة، وأن 2) الوكلاء الذين يستخدمون UGround يتفوقون على الوكلاء الأكثر تقدمًا حاليًا، رغم أن الوكلاء الموجودة تستفيد من إدخال إضافي نصي بينما يستند عملنا فقط إلى الإدراك البصري. توفر هذه النتائج دعمًا قويًا لجدوى وإمكانات وكالات واجهة المستخدم الرسomiّة التي تتنقل في العالم الرقمي كما يفعل البشر.

التنقل في العالم الرقمي كما يفعل البشر: التأصيل البصري الشامل للوكلاء الرسوميين | أحدث الأوراق البحثية | HyperAI