HyperAIHyperAI

Command Palette

Search for a command to run...

VenusBench-GD: معيار رسومي متعدد المنصات شامِل للمهام المختلفة للتثبيت

الملخص

تمثيل واجهة المستخدم الرسومية (GUI grounding) يُعد عنصراً أساسياً في بناء وكلاء واجهة مستخدم قادرين على الأداء. ومع ذلك، تعاني المعايير الحالية لتلك المهام من قيود كبيرة: إما أنها توفر كميات بيانات غير كافية وتغطي مجالات ضيقة، أو تركز بشكل مفرط على منصة واحدة وتتطلب معرفة متخصصة للغاية في المجال. في هذا العمل، نقدّم "VenusBench-GD"، وهي معيار شامل ثنائي اللغة لتمثيل واجهة المستخدم الرسومية، يمتد عبر منصات متعددة، مما يمكّن من تقييم هرمي يناسب التطبيقات الواقعية. تتمثل إسهامات VenusBench-GD في النقاط التالية: (أ) نقدّم معياراً واسع النطاق يشمل منصات متعددة، ويغطي تطبيقات واسعة، وعناصر واجهة مستخدم متنوعة، وبيانات مُعلّمة غنية؛ (ب) نُنشئ عملية بناء بيانات عالية الجودة لمهام التمثيل، ونحقق دقة أعلى في التصنيف مقارنة بالمعايير الحالية؛ (ج) نوسع نطاق تمثيل العناصر من خلال اقتراح تصنيف مهام هرمي يقسّم التمثيل إلى فئتين أساسيتين ومتقدّمتين، يشمل ستة مهام فرعية مختلفة مصممة لتقييم النماذج من زوايا متكاملة. كشفت نتائج تجاربنا عن رؤى حاسمة: أصبحت النماذج متعددة الوسائط العامة تُنافس أو تتفوّق على النماذج المتخصصة في واجهة المستخدم في المهام الأساسية للتمثيل. أما المهام المتقدمة، فما زالت تفضّل النماذج المتخصصة في واجهة المستخدم، رغم ملاحظة تجاوز كبير في التكيّف (overfitting) وضعف المرونة. تُبرز هذه النتائج الحاجة الملحة إلى أطر تقييم شاملة ومتعددة المستويات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
VenusBench-GD: معيار رسومي متعدد المنصات شامِل للمهام المختلفة للتثبيت | مستندات | HyperAI