منذ 4 أشهر

الملخص

مع تطور نماذج اللغة (LM) إلى وكالات أكثر قدرة وتوسّعًا في الوصول إلى أدوات العالم الحقيقي، أصبح هناك حاجة متزايدة إلى أطر تقييم قابلة للتوسع لقياس القدرات الوكالية. ومع ذلك، فإن التقييمات التقليدية القائمة على المعايير (benchmarks) تتطلب تصميمًا مكلفًا، ويتطلب من المصممين البشريين ابتكار مهام صالحة تُنتج رؤى حول القدرات العامة للنماذج. في هذا العمل، نقترح منهجية تقييم مبنية على نظرية المعلومات، تعتمد على مفهوم "التمكين" (empowerment)، أي المعلومات المتبادلة بين إجراءات الوكيل وحالاته المستقبلية، كطريقة مفتوحة الاتجاه لتقييم وكالات نماذج اللغة. نقدّم خوارزمية تُسمى EELMA (تقدير تمكين وكالات نماذج اللغة)، المصممة لتقريب القيمة الفعّالة للتمكين من خلال التفاعلات النصية متعددة الجولات. ونُختبر EELMA في سيناريوهات لعب اللغات، بالإضافة إلى سيناريوهات واقعية موسّعة لتصفح الويب. ونجد أن التمكين يُظهر ارتباطًا قويًا بأداء المهام المتوسط، ونُوصِف تأثير تعقيد البيئة والعوامل الوكالية مثل التفكير المتسلسل (chain-of-thought)، وحجم النموذج، وطول الذاكرة على القيمة المقدرة للتمكين، كما نلاحظ أن الحالات والإجراءات ذات التمكين العالي غالبًا ما تمثل لحظات محورية لتميّز القدرات العامة. تُظهر هذه النتائج مجتمعة أن مفهوم التمكين يُعد مؤشرًا مثاليًا وشاملًا لتقييم ومراقبة وكالات نماذج اللغة في البيئات المعقدة والمتعددة الاتجاهات.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار