HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 17 أيام

CostBench: تقييم التخطيط المُثلى من حيث التكلفة متعدد الجولات والتكيف في البيئات الديناميكية لوكالات استخدام الأدوات في نماذج اللغة الكبيرة

Jiayu Liu Cheng Qian Zhaochen Su Qing Zong Shijue Huang Bingxiang He Yi R. Fung

CostBench: تقييم التخطيط المُثلى من حيث التكلفة متعدد الجولات والتكيف في البيئات الديناميكية لوكالات استخدام الأدوات في نماذج اللغة الكبيرة

الملخص

تُركّز التقييمات الحالية لنماذج اللغة الكبيرة (LLM) العاملة على إتمام المهام، وغالبًا ما تتجاهل الكفاءة في استخدام الموارد والقدرة على التكيّف. وينتج عن هذا التجاهل قدرة حاسمة: قدرة العوامل على صياغة خطط مُثلى من حيث التكلفة وتعديلها استجابةً للتغيرات في البيئة. ولسد هذه الفجوة، نقدّم "CostBench"، وهو معيار مُ-scalable ومُركّز على التكلفة، مُصمم لتقييم قدرات العوامل في التفكير الاقتصادي وإعادة التخطيط. يقع CostBench في مجال تخطيط السفر، ويتضمّن مهام يمكن حلّها عبر تسلسلات متعددة من الأدوات الذرية والمركبة، التي تختلف في التكاليف وقابلة للتخصيص. كما يدعم أربعة أنواع من الأحداث الديناميكية المُعَرِّضة، مثل أعطال الأدوات وتغيرات التكاليف، لمحاكاة التقلّبات الواقعية وتحفيز العوامل على التكيّف فورًا. وعند تقييم نماذج مفتوحة المصدر ونماذج مملوكة مُتقدّمة على CostBench، تُظهر النتائج فجوة كبيرة في التخطيط المُستنير بالتكلفة: فغالبًا ما تفشل العوامل في التعرّف على الحلول المُثلى من حيث التكلفة في البيئات الثابتة، حيث تُسجّل حتى نموذج GPT-5 معدل مطابقة دقيق أقل من 75% في المهام الأصعب، وتنخفض الأداء بمقدار حوالي 40% في الظروف الديناميكية. وبتحليل هذه الضعف، يُمكّن CostBench من وضع الأسس لتطوير عوامل مستقبلية تكون مُتّسقة من الناحية الاقتصادية وقوية في مواجهة التحديات.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
CostBench: تقييم التخطيط المُثلى من حيث التكلفة متعدد الجولات والتكيف في البيئات الديناميكية لوكالات استخدام الأدوات في نماذج اللغة الكبيرة | الأوراق البحثية | HyperAI