الملخص

حققت agents نماذج اللغة الكبيرة (LLM) أداءً متيناً على طيف واسع من معايير التقييم، غير أن معظم عمليات التقييم تفترض بيئات ثابتة. وعلى النقيض من ذلك، يتميز النشر في العالم الحقيقي بالديناميكية الكامنة، مما يستلزم من agents أن تواصل مواءمة معرفتها ومهاراتها وسلوكها باستمرار مع البيئات المتغيرة وظروف المهام المُحدَّثة. وسعياً لسد هذه الفجوة، نقدم EvoArena، وهي مجموعة معايير تقييم تُصوّر التغيرات البيئية على أنها تسلسلات من التحديثات التدريجية عبر المجالات الطرفية والبرمجية والاجتماعية. ونقترح أيضاً EvoMem، وهو نموذج ذاكرة قائم على الرقع يسجل تطور الذاكرة على شكل سجلات تحديث منظمة، مما يمكّن agents من الاستدلال على التطور البيئي من خلال التغيرات الحاصلة في ذاكرتها. وتُظهر التجارب أن agents الحالية تواجه تحديات كبيرة في EvoArena، حيث حققت متوسط دقة يبلغ 39.6% عبر المجالات الطرفية والبرمجية والاجتماعية المتعلقة بالتفضيلات المتطورة. ويحسّن EvoMem الأداء بشكل متسق، محققاً متوسط زيادة قدره 1.5% على EvoArena، بالإضافة إلى تحسين معايير التقييم القياسية مثل GAIA وLoCoMo بنسبة 6.1% و4.8% على التوالي. وعلاوة على المهام الفردية، يحسّن EvoMem دقة مستوى السلسلة بنسبة 3.7% إضافية على EvoArena، حيث يتطلب النجاح إكمال تسلسل متتابع من المهام الفرعية التطورية المترابطة. ويُظهر التحليل الآلي أن EvoMem يعزز التقاط الأدلة داخل الذاكرة، مما يدل على حفظ أفضل لحالات البيئة المتطورة بشكل كامل. وتسلط نتائجنا الضوء على أهمية نمذجة التطور في كل من عمليات التقييم والذاكرة لضمان النشر الموثوق لـ agents.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

EvoArena: تتبع تطور الذاكرة لـ Agents LLM القوية في البيئات الديناميكية

Jundong Xu Qingchuan Li Jiaying Wu Yihuai Lan Shuyue Stella Li Huichi Zhou Bowen Jiang Lei Wang Jun Wang Anh Tuan Luu4 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

EvoArena: تتبع تطور الذاكرة لـ Agents LLM القوية في البيئات الديناميكية

Jundong Xu Qingchuan Li Jiaying Wu Yihuai Lan Shuyue Stella Li Huichi Zhou Bowen Jiang Lei Wang Jun Wang Anh Tuan Luu4 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

EvoArena: تتبع تطور الذاكرة لـ Agents LLM القوية في البيئات الديناميكية

Jundong Xu Qingchuan Li Jiaying Wu Yihuai Lan Shuyue Stella Li Huichi Zhou Bowen Jiang Lei Wang Jun Wang Anh Tuan Luu4 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Jundong Xu Qingchuan Li Jiaying Wu Yihuai Lan Shuyue Stella Li Huichi Zhou Bowen Jiang Lei Wang Jun Wang Anh Tuan Luu

Jundong Xu Qingchuan Li Jiaying Wu Yihuai Lan Shuyue Stella Li Huichi Zhou Bowen Jiang Lei Wang Jun Wang Anh Tuan Luu

Jundong Xu Qingchuan Li Jiaying Wu Yihuai Lan Shuyue Stella Li Huichi Zhou Bowen Jiang Lei Wang Jun Wang Anh Tuan Luu