منذ 3 أشهر

الملخص

تُركّز التقييمات الحالية لنماذج اللغة الكبيرة (LLM) العاملة على إتمام المهام، وغالبًا ما تتجاهل الكفاءة في استخدام الموارد والقدرة على التكيّف. وينتج عن هذا التجاهل قدرة حاسمة: قدرة العوامل على صياغة خطط مُثلى من حيث التكلفة وتعديلها استجابةً للتغيرات في البيئة. ولسد هذه الفجوة، نقدّم "CostBench"، وهو معيار مُ-scalable ومُركّز على التكلفة، مُصمم لتقييم قدرات العوامل في التفكير الاقتصادي وإعادة التخطيط. يقع CostBench في مجال تخطيط السفر، ويتضمّن مهام يمكن حلّها عبر تسلسلات متعددة من الأدوات الذرية والمركبة، التي تختلف في التكاليف وقابلة للتخصيص. كما يدعم أربعة أنواع من الأحداث الديناميكية المُعَرِّضة، مثل أعطال الأدوات وتغيرات التكاليف، لمحاكاة التقلّبات الواقعية وتحفيز العوامل على التكيّف فورًا. وعند تقييم نماذج مفتوحة المصدر ونماذج مملوكة مُتقدّمة على CostBench، تُظهر النتائج فجوة كبيرة في التخطيط المُستنير بالتكلفة: فغالبًا ما تفشل العوامل في التعرّف على الحلول المُثلى من حيث التكلفة في البيئات الثابتة، حيث تُسجّل حتى نموذج GPT-5 معدل مطابقة دقيق أقل من 75% في المهام الأصعب، وتنخفض الأداء بمقدار حوالي 40% في الظروف الديناميكية. وبتحليل هذه الضعف، يُمكّن CostBench من وضع الأسس لتطوير عوامل مستقبلية تكون مُتّسقة من الناحية الاقتصادية وقوية في مواجهة التحديات.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Jiayu Liu Cheng Qian Zhaochen Su Qing Zong Shijue Huang Bingxiang He Yi R. Fung

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Jiayu Liu Cheng Qian Zhaochen Su Qing Zong Shijue Huang Bingxiang He Yi R. Fung

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Jiayu Liu Cheng Qian Zhaochen Su Qing Zong Shijue Huang Bingxiang He Yi R. Fung

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

CostBench: تقييم التخطيط المُثلى من حيث التكلفة متعدد الجولات والتكيف في البيئات الديناميكية لوكالات استخدام الأدوات في نماذج اللغة الكبيرة

Jiayu Liu Cheng Qian Zhaochen Su Qing Zong Shijue Huang Bingxiang He Yi R. Fung

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

CostBench: تقييم التخطيط المُثلى من حيث التكلفة متعدد الجولات والتكيف في البيئات الديناميكية لوكالات استخدام الأدوات في نماذج اللغة الكبيرة

Jiayu Liu Cheng Qian Zhaochen Su Qing Zong Shijue Huang Bingxiang He Yi R. Fung

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

CostBench: تقييم التخطيط المُثلى من حيث التكلفة متعدد الجولات والتكيف في البيئات الديناميكية لوكالات استخدام الأدوات في نماذج اللغة الكبيرة

Jiayu Liu Cheng Qian Zhaochen Su Qing Zong Shijue Huang Bingxiang He Yi R. Fung

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters