HyperAIHyperAI

Command Palette

Search for a command to run...

UserBench: بيئة صالة رياضية تفاعلية لوكالات متمحورة حول المستخدم

الملخص

لقد حققت الوكلاء القائمة على نماذج اللغة الكبيرة (LLMs) تقدماً ملحوظاً في التفكير واستخدام الأدوات، مما مكّنها من حل المهام المعقدة. ومع ذلك، ما زالت قدرتها على التعاون التفاعلي مع المستخدمين، وخاصة عندما تكون الأهداف غامضة أو متغيرة أو مُعبّر عنها بشكل غير مباشر، موضع بحث محدود. ولسد هذه الفجوة، نقدّم "UserBench"، وهو معيار مُركّز حول المستخدم مصمم لتقييم أداء الوكلاء في التفاعلات متعددة الدورات المُشَغّلة بالتقديرات. يضمّ UserBench مستخدمين مُحاكين يبدأون بتحديد أهداف غير محددة بدقة، ثم يُظهرون تفضيلاتهم تدريجياً، ما يتطلب من الوكلاء التفاعل النشط لتفنيد النوايا واتخاذ قرارات مبنية على أدوات ملموسة. وقد كشف تقييمنا للنماذج البارزة المفتوحة المصدر والمغلقة المصدر من LLMs عن فجوة كبيرة بين إنجاز المهام وتوافق النموذج مع تفضيلات المستخدم. فعلى سبيل المثال، توافق النماذج مع جميع نوايا المستخدم بالكامل فقط في 20% من المقابلات بشكل متوسط، وحتى أكثر النماذج تقدماً لم تُكتشف سوى أقل من 30% من جميع التفضيلات من خلال التفاعل النشط. تُبرز هذه النتائج التحديات المرتبطة ببناء وكلاء لا يقتصر دورهم على تنفيذ المهام، بل يصبحون شركاء تعاونيين حقيقيين. ويوفّر UserBench بيئة تفاعلية لقياس وتطوير هذه القدرة الحاسمة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp