UserBench: بيئة صالة رياضية تفاعلية لوكالات متمحورة حول المستخدم

لقد حققت الوكلاء القائمة على نماذج اللغة الكبيرة (LLMs) تقدماً ملحوظاً في التفكير واستخدام الأدوات، مما مكّنها من حل المهام المعقدة. ومع ذلك، ما زالت قدرتها على التعاون التفاعلي مع المستخدمين، وخاصة عندما تكون الأهداف غامضة أو متغيرة أو مُعبّر عنها بشكل غير مباشر، موضع بحث محدود. ولسد هذه الفجوة، نقدّم "UserBench"، وهو معيار مُركّز حول المستخدم مصمم لتقييم أداء الوكلاء في التفاعلات متعددة الدورات المُشَغّلة بالتقديرات. يضمّ UserBench مستخدمين مُحاكين يبدأون بتحديد أهداف غير محددة بدقة، ثم يُظهرون تفضيلاتهم تدريجياً، ما يتطلب من الوكلاء التفاعل النشط لتفنيد النوايا واتخاذ قرارات مبنية على أدوات ملموسة. وقد كشف تقييمنا للنماذج البارزة المفتوحة المصدر والمغلقة المصدر من LLMs عن فجوة كبيرة بين إنجاز المهام وتوافق النموذج مع تفضيلات المستخدم. فعلى سبيل المثال، توافق النماذج مع جميع نوايا المستخدم بالكامل فقط في 20% من المقابلات بشكل متوسط، وحتى أكثر النماذج تقدماً لم تُكتشف سوى أقل من 30% من جميع التفضيلات من خلال التفاعل النشط. تُبرز هذه النتائج التحديات المرتبطة ببناء وكلاء لا يقتصر دورهم على تنفيذ المهام، بل يصبحون شركاء تعاونيين حقيقيين. ويوفّر UserBench بيئة تفاعلية لقياس وتطوير هذه القدرة الحاسمة.