Command Palette
Search for a command to run...
Jinyeop Song Jeff Gore Max Kleiman-Weiner

الملخص
مع تطور نماذج اللغة (LM) إلى وكالات أكثر قدرة وتوسّعًا في الوصول إلى أدوات العالم الحقيقي، أصبح هناك حاجة متزايدة إلى أطر تقييم قابلة للتوسع لقياس القدرات الوكالية. ومع ذلك، فإن التقييمات التقليدية القائمة على المعايير (benchmarks) تتطلب تصميمًا مكلفًا، ويتطلب من المصممين البشريين ابتكار مهام صالحة تُنتج رؤى حول القدرات العامة للنماذج. في هذا العمل، نقترح منهجية تقييم مبنية على نظرية المعلومات، تعتمد على مفهوم "التمكين" (empowerment)، أي المعلومات المتبادلة بين إجراءات الوكيل وحالاته المستقبلية، كطريقة مفتوحة الاتجاه لتقييم وكالات نماذج اللغة. نقدّم خوارزمية تُسمى EELMA (تقدير تمكين وكالات نماذج اللغة)، المصممة لتقريب القيمة الفعّالة للتمكين من خلال التفاعلات النصية متعددة الجولات. ونُختبر EELMA في سيناريوهات لعب اللغات، بالإضافة إلى سيناريوهات واقعية موسّعة لتصفح الويب. ونجد أن التمكين يُظهر ارتباطًا قويًا بأداء المهام المتوسط، ونُوصِف تأثير تعقيد البيئة والعوامل الوكالية مثل التفكير المتسلسل (chain-of-thought)، وحجم النموذج، وطول الذاكرة على القيمة المقدرة للتمكين، كما نلاحظ أن الحالات والإجراءات ذات التمكين العالي غالبًا ما تمثل لحظات محورية لتميّز القدرات العامة. تُظهر هذه النتائج مجتمعة أن مفهوم التمكين يُعد مؤشرًا مثاليًا وشاملًا لتقييم ومراقبة وكالات نماذج اللغة في البيئات المعقدة والمتعددة الاتجاهات.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.