HyperAIHyperAI

Command Palette

Search for a command to run...

OmniParser لوكيل واجهة المستخدم القائمة على الرؤية البحتة

Yadong Lu Jianwei Yang Yelong Shen Ahmed Awadallah

الملخص

النجاح الأخير للنماذج اللغوية المرئية الكبيرة يظهر إمكانات كبيرة في تشغيل أنظمة الوكلاء على واجهات المستخدم. ومع ذلك، نعتقد أن قوة النماذج متعددة الوسائط مثل GPT-4V كوكيل عام على أنظمة التشغيل المتعددة عبر التطبيقات المختلفة يتم تقديرها بقليل بسبب عدم وجود تقنية فرز شاشة قوية قادرة على: 1) تحديد الرموز القابلة للتفاعل داخل واجهة المستخدم بشكل موثوق، و2) فهم دلالات العناصر المختلفة في لقطة الشاشة وربط الفعل المقصود بدقة بالمنطقة المقابلة على الشاشة. لسد هذه الثغرات، نقدم OmniParser، وهو طريقة شاملة لفرز لقطات شاشة واجهة المستخدم إلى عناصر منظمة، مما يعزز بشكل كبير قدرة GPT-4V على توليد أفعال يمكن ربطها بدقة بالمناطق المقابلة في الواجهة. أولاً، جمعنا مجموعة بيانات للكشف عن الرموز القابلة للتفاعل باستخدام صفحات الويب الشهيرة ومجموعة بيانات وصف الرموز. تم استخدام هذه المجموعات من البيانات لضبط نماذج متخصصة: نموذج كشف لتحليل المناطق القابلة للتفاعل على الشاشة ونموذج تعليق لاستخراج الدلالات الوظيفية للعناصر المكتشفة. يحسن OmniParser بشكل كبير أداء GPT-4V على معيار ScreenSpot. وعلى معايير Mind2Web وAITW، تتفوق OmniParser مع مدخلات لقطات الشاشة فقط على خطوط الأساس GPT-4V التي تتطلب معلومات إضافية خارج لقطة الشاشة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp