OpenCUA: أسس مفتوحة لوكالات استخدام الحاسوب

أظهرت نماذج الرؤية واللغة قدرات مذهلة كوكالات استخدام الحاسوب (CUAs) قادرة على أتمتة مهام حاسوبية متنوعة. ومع نمو إمكاناتها التجارية، تظل التفاصيل الحرجة لأكثر أنظمة CUA تطورًا مغلقة. وبما أن هذه الوكالات ستزداد تدريجيًا في دورها كمُعَدِّل لتفاعلاتنا الرقمية وتنفيذها لقرارات ذات تأثير على مصالحنا، فإن المجتمع البحثي يحتاج إلى وصول مفتوح إلى إطار عمل CUA مفتوح المصدر لدراسة قدراتها وحدودها ومخاطرها. ولسد هذه الفجوة، نقترح OpenCUA، وهو إطار مفتوح المصدر شامل لتوسيع بيانات ونماذج الأساس الخاصة بـ CUA. يتكوّن إطارنا من: (1) بنية تسمية تُسجِّل بسلاسة تجارب إظهار الإنسان في استخدام الحاسوب؛ (2) AgentNet، أول مجموعة بيانات كبيرة النطاق للوظائف المتعلقة باستخدام الحاسوب، تمتد عبر 3 أنظمة تشغيل و200 تطبيقًا وموقعًا إلكترونيًا؛ (3) عملية قابلة للتوسع تحوّل التسجيلات إلى أزواج من الحالة-الإجراء باستخدام تفكير من نوع سلسلة التفكير المُتَفَكِّر (Chain-of-Thought) الطويل، مما يُحافظ على تحسينات أداء قوية مع زيادة حجم البيانات. تُظهر نماذج الوكالات المتكاملة من طرف إلى طرف أداءً قويًا عبر معايير CUA. وبشكل خاص، حقق OpenCUA-32B معدل نجاح متوسط قدره 34.8% على OSWorld-Verified، مُحدثًا حالة جديدة من أفضل الأداء (SOTA) بين النماذج المفتوحة المصدر، وتفوق بذلك نموذج OpenAI CUA (GPT-4o). كما أثبت التحليل الإضافي أن نهجنا يُظهر تعميمًا جيدًا عبر المجالات، ويستفيد بشكل كبير من زيادة الحوسبة أثناء الاختبار. ونُطلق أداتنا لتسجيل البيانات، ومجموعات البيانات، والكود، والنماذج، لبناء أساس مفتوح لتعزيز الأبحاث المستقبلية في مجال CUA.