منذ 2 أشهر

OmniParser لوكيل واجهة المستخدم القائمة على الرؤية البحتة

Yadong Lu, Jianwei Yang, Yelong Shen, Ahmed Awadallah

الملخص

النجاح الأخير للنماذج اللغوية المرئية الكبيرة يظهر إمكانات كبيرة في تشغيل أنظمة الوكلاء على واجهات المستخدم. ومع ذلك، نعتقد أن قوة النماذج متعددة الوسائط مثل GPT-4V كوكيل عام على أنظمة التشغيل المتعددة عبر التطبيقات المختلفة يتم تقديرها بقليل بسبب عدم وجود تقنية فرز شاشة قوية قادرة على: 1) تحديد الرموز القابلة للتفاعل داخل واجهة المستخدم بشكل موثوق، و2) فهم دلالات العناصر المختلفة في لقطة الشاشة وربط الفعل المقصود بدقة بالمنطقة المقابلة على الشاشة. لسد هذه الثغرات، نقدم OmniParser، وهو طريقة شاملة لفرز لقطات شاشة واجهة المستخدم إلى عناصر منظمة، مما يعزز بشكل كبير قدرة GPT-4V على توليد أفعال يمكن ربطها بدقة بالمناطق المقابلة في الواجهة. أولاً، جمعنا مجموعة بيانات للكشف عن الرموز القابلة للتفاعل باستخدام صفحات الويب الشهيرة ومجموعة بيانات وصف الرموز. تم استخدام هذه المجموعات من البيانات لضبط نماذج متخصصة: نموذج كشف لتحليل المناطق القابلة للتفاعل على الشاشة ونموذج تعليق لاستخراج الدلالات الوظيفية للعناصر المكتشفة. يحسن OmniParser بشكل كبير أداء GPT-4V على معيار ScreenSpot. وعلى معايير Mind2Web وAITW، تتفوق OmniParser مع مدخلات لقطات الشاشة فقط على خطوط الأساس GPT-4V التي تتطلب معلومات إضافية خارج لقطة الشاشة.