HyperAIHyperAI

Command Palette

Search for a command to run...

VenusBench-GD: معيار رسومي متعدد المنصات شامِل للمهام المختلفة للتثبيت

Abstract

تمثيل واجهة المستخدم الرسومية (GUI grounding) يُعد عنصراً أساسياً في بناء وكلاء واجهة مستخدم قادرين على الأداء. ومع ذلك، تعاني المعايير الحالية لتلك المهام من قيود كبيرة: إما أنها توفر كميات بيانات غير كافية وتغطي مجالات ضيقة، أو تركز بشكل مفرط على منصة واحدة وتتطلب معرفة متخصصة للغاية في المجال. في هذا العمل، نقدّم "VenusBench-GD"، وهي معيار شامل ثنائي اللغة لتمثيل واجهة المستخدم الرسومية، يمتد عبر منصات متعددة، مما يمكّن من تقييم هرمي يناسب التطبيقات الواقعية. تتمثل إسهامات VenusBench-GD في النقاط التالية: (أ) نقدّم معياراً واسع النطاق يشمل منصات متعددة، ويغطي تطبيقات واسعة، وعناصر واجهة مستخدم متنوعة، وبيانات مُعلّمة غنية؛ (ب) نُنشئ عملية بناء بيانات عالية الجودة لمهام التمثيل، ونحقق دقة أعلى في التصنيف مقارنة بالمعايير الحالية؛ (ج) نوسع نطاق تمثيل العناصر من خلال اقتراح تصنيف مهام هرمي يقسّم التمثيل إلى فئتين أساسيتين ومتقدّمتين، يشمل ستة مهام فرعية مختلفة مصممة لتقييم النماذج من زوايا متكاملة. كشفت نتائج تجاربنا عن رؤى حاسمة: أصبحت النماذج متعددة الوسائط العامة تُنافس أو تتفوّق على النماذج المتخصصة في واجهة المستخدم في المهام الأساسية للتمثيل. أما المهام المتقدمة، فما زالت تفضّل النماذج المتخصصة في واجهة المستخدم، رغم ملاحظة تجاوز كبير في التكيّف (overfitting) وضعف المرونة. تُبرز هذه النتائج الحاجة الملحة إلى أطر تقييم شاملة ومتعددة المستويات.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
VenusBench-GD: معيار رسومي متعدد المنصات شامِل للمهام المختلفة للتثبيت | Papers | HyperAI