HyperAIHyperAI

Command Palette

Search for a command to run...

منذ شهر واحد

تقدير تمكين وكالات النماذج اللغوية

Jinyeop Song Jeff Gore Max Kleiman-Weiner

تقدير تمكين وكالات النماذج اللغوية

الملخص

مع تطور نماذج اللغة (LM) إلى وكالات أكثر قدرة وتوسّعًا في الوصول إلى أدوات العالم الحقيقي، أصبح هناك حاجة متزايدة إلى أطر تقييم قابلة للتوسع لقياس القدرات الوكالية. ومع ذلك، فإن التقييمات التقليدية القائمة على المعايير (benchmarks) تتطلب تصميمًا مكلفًا، ويتطلب من المصممين البشريين ابتكار مهام صالحة تُنتج رؤى حول القدرات العامة للنماذج. في هذا العمل، نقترح منهجية تقييم مبنية على نظرية المعلومات، تعتمد على مفهوم "التمكين" (empowerment)، أي المعلومات المتبادلة بين إجراءات الوكيل وحالاته المستقبلية، كطريقة مفتوحة الاتجاه لتقييم وكالات نماذج اللغة. نقدّم خوارزمية تُسمى EELMA (تقدير تمكين وكالات نماذج اللغة)، المصممة لتقريب القيمة الفعّالة للتمكين من خلال التفاعلات النصية متعددة الجولات. ونُختبر EELMA في سيناريوهات لعب اللغات، بالإضافة إلى سيناريوهات واقعية موسّعة لتصفح الويب. ونجد أن التمكين يُظهر ارتباطًا قويًا بأداء المهام المتوسط، ونُوصِف تأثير تعقيد البيئة والعوامل الوكالية مثل التفكير المتسلسل (chain-of-thought)، وحجم النموذج، وطول الذاكرة على القيمة المقدرة للتمكين، كما نلاحظ أن الحالات والإجراءات ذات التمكين العالي غالبًا ما تمثل لحظات محورية لتميّز القدرات العامة. تُظهر هذه النتائج مجتمعة أن مفهوم التمكين يُعد مؤشرًا مثاليًا وشاملًا لتقييم ومراقبة وكالات نماذج اللغة في البيئات المعقدة والمتعددة الاتجاهات.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تقدير تمكين وكالات النماذج اللغوية | الأوراق البحثية | HyperAI