CostBench: تقييم التخطيط المُثلى من حيث التكلفة متعدد الجولات والتكيف في البيئات الديناميكية لوكالات استخدام الأدوات في نماذج اللغة الكبيرة
Jiayu Liu Cheng Qian Zhaochen Su Qing Zong Shijue Huang Bingxiang He Yi R. Fung

الملخص
تُركّز التقييمات الحالية لنماذج اللغة الكبيرة (LLM) العاملة على إتمام المهام، وغالبًا ما تتجاهل الكفاءة في استخدام الموارد والقدرة على التكيّف. وينتج عن هذا التجاهل قدرة حاسمة: قدرة العوامل على صياغة خطط مُثلى من حيث التكلفة وتعديلها استجابةً للتغيرات في البيئة. ولسد هذه الفجوة، نقدّم "CostBench"، وهو معيار مُ-scalable ومُركّز على التكلفة، مُصمم لتقييم قدرات العوامل في التفكير الاقتصادي وإعادة التخطيط. يقع CostBench في مجال تخطيط السفر، ويتضمّن مهام يمكن حلّها عبر تسلسلات متعددة من الأدوات الذرية والمركبة، التي تختلف في التكاليف وقابلة للتخصيص. كما يدعم أربعة أنواع من الأحداث الديناميكية المُعَرِّضة، مثل أعطال الأدوات وتغيرات التكاليف، لمحاكاة التقلّبات الواقعية وتحفيز العوامل على التكيّف فورًا. وعند تقييم نماذج مفتوحة المصدر ونماذج مملوكة مُتقدّمة على CostBench، تُظهر النتائج فجوة كبيرة في التخطيط المُستنير بالتكلفة: فغالبًا ما تفشل العوامل في التعرّف على الحلول المُثلى من حيث التكلفة في البيئات الثابتة، حيث تُسجّل حتى نموذج GPT-5 معدل مطابقة دقيق أقل من 75% في المهام الأصعب، وتنخفض الأداء بمقدار حوالي 40% في الظروف الديناميكية. وبتحليل هذه الضعف، يُمكّن CostBench من وضع الأسس لتطوير عوامل مستقبلية تكون مُتّسقة من الناحية الاقتصادية وقوية في مواجهة التحديات.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.