الملخص

لقد حققت الوكلاء القائمة على نماذج اللغة الكبيرة (LLMs) تقدماً ملحوظاً في التفكير واستخدام الأدوات، مما مكّنها من حل المهام المعقدة. ومع ذلك، ما زالت قدرتها على التعاون التفاعلي مع المستخدمين، وخاصة عندما تكون الأهداف غامضة أو متغيرة أو مُعبّر عنها بشكل غير مباشر، موضع بحث محدود. ولسد هذه الفجوة، نقدّم "UserBench"، وهو معيار مُركّز حول المستخدم مصمم لتقييم أداء الوكلاء في التفاعلات متعددة الدورات المُشَغّلة بالتقديرات. يضمّ UserBench مستخدمين مُحاكين يبدأون بتحديد أهداف غير محددة بدقة، ثم يُظهرون تفضيلاتهم تدريجياً، ما يتطلب من الوكلاء التفاعل النشط لتفنيد النوايا واتخاذ قرارات مبنية على أدوات ملموسة. وقد كشف تقييمنا للنماذج البارزة المفتوحة المصدر والمغلقة المصدر من LLMs عن فجوة كبيرة بين إنجاز المهام وتوافق النموذج مع تفضيلات المستخدم. فعلى سبيل المثال، توافق النماذج مع جميع نوايا المستخدم بالكامل فقط في 20% من المقابلات بشكل متوسط، وحتى أكثر النماذج تقدماً لم تُكتشف سوى أقل من 30% من جميع التفضيلات من خلال التفاعل النشط. تُبرز هذه النتائج التحديات المرتبطة ببناء وكلاء لا يقتصر دورهم على تنفيذ المهام، بل يصبحون شركاء تعاونيين حقيقيين. ويوفّر UserBench بيئة تفاعلية لقياس وتطوير هذه القدرة الحاسمة.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

UserBench: بيئة صالة رياضية تفاعلية لوكالات متمحورة حول المستخدم

Cheng Qian Zuxin Liu Akshara Prabhakar Zhiwei Liu Jianguo Zhang Haolin Chen Heng Ji Weiran Yao Shelby Heinecke Silvio Savarese2 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

UserBench: بيئة صالة رياضية تفاعلية لوكالات متمحورة حول المستخدم

Cheng Qian Zuxin Liu Akshara Prabhakar Zhiwei Liu Jianguo Zhang Haolin Chen Heng Ji Weiran Yao Shelby Heinecke Silvio Savarese2 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

UserBench: بيئة صالة رياضية تفاعلية لوكالات متمحورة حول المستخدم

Cheng Qian Zuxin Liu Akshara Prabhakar Zhiwei Liu Jianguo Zhang Haolin Chen Heng Ji Weiran Yao Shelby Heinecke Silvio Savarese2 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Cheng Qian Zuxin Liu Akshara Prabhakar Zhiwei Liu Jianguo Zhang Haolin Chen Heng Ji Weiran Yao Shelby Heinecke Silvio Savarese

Cheng Qian Zuxin Liu Akshara Prabhakar Zhiwei Liu Jianguo Zhang Haolin Chen Heng Ji Weiran Yao Shelby Heinecke Silvio Savarese

Cheng Qian Zuxin Liu Akshara Prabhakar Zhiwei Liu Jianguo Zhang Haolin Chen Heng Ji Weiran Yao Shelby Heinecke Silvio Savarese