منذ 3 أيام

OS-MAP: إلى أي مدى يمكن لل-Agent التي تستخدم الحواسيب أن تذهب من حيث الاتساع والعمق؟

Xuetian Chen, Yinghao Chen, Xinfeng Yuan, Zhuo Peng, Lu Chen, Yuekeng Li, et al

الملخص

الوكلاء المستخدمين للحواسيب أثبتوا إمكانات قوية في زيادة إنتاجية الإنسان وتمكين أشكال جديدة من التطبيقات عبر المنصات. ومع أن التطورات الأخيرة أدت إلى تطبيقات قابلة للتطبيق، إلا أن المعايير الحالية لا تأخذ في الاعتبار التنوع الداخلي للمهام والقدرات المقابلة للوكلاء، بالإضافة إلى توافقها مع متطلبات المستخدم الفعلية، مما يعيق تطوير القدرات المستهدفة وتحويل الإنجازات البحثية إلى تطبيقات عملية بشكل موثوق. لسد هذه الفجوة، نقدم OS-MAP، وهو معيار للاست自动化 اليومية في استخدام الحواسيب، حيث ينظم 416 مهمة واقعية عبر 15 تطبيقًا على مدارتين رئيسيتين: تصنيف تلقائية بمستويات خمسة، ونطاق تعميم مستمد من هرمية متطلبات المستخدم في العالم الحقيقي. لتمكين تحليل دقيق للقدرات المطلوبة وتوافقها مع السيناريوهات الواقعية، تقيّم OS-MAP الوكلاء على مدارتين: مستوى التلقائية عبر تصنيف بمستويات خمسة، ونطاق التعميم عبر هرمية متطلبات المستخدم. وتُسهم هذه التصميم في التقاط المستويات المختلفة للذكاء الاصطناعي المطلوب من الوكلاء والقدرة على التعميم، مما يشكل مصفوفة تقييم للأداء والتوسع لإجراء تقييم مُنظم وشامل. تشير التجارب إلى أن حتى الوكلاء المتقدمة التي تعتمد على نماذج لغوية متعددة (VLM) تواجه صعوبات في المهام ذات المستوى الأعلى التي تتضمن الإدراك والاستدلال والتنسيق، مما يبرز الحاجة إلى فهم أعمق للنقاط القوية والضعف الحالية لدعم التقدم المستقبلي في بحث وتطبيق الوكلاء المستخدمين للحواسيب. جميع الشيفرات البرمجية والبيئات والأسس الأولية (baselines) والبيانات متوفرة بشكل عام في هذا الرابط (https).