Command Palette
Search for a command to run...
EvoArena: تتبع تطور الذاكرة لـ Agents LLM القوية في البيئات الديناميكية
EvoArena: تتبع تطور الذاكرة لـ Agents LLM القوية في البيئات الديناميكية
الملخص
حققت agents نماذج اللغة الكبيرة (LLM) أداءً متيناً على طيف واسع من معايير التقييم، غير أن معظم عمليات التقييم تفترض بيئات ثابتة. وعلى النقيض من ذلك، يتميز النشر في العالم الحقيقي بالديناميكية الكامنة، مما يستلزم من agents أن تواصل مواءمة معرفتها ومهاراتها وسلوكها باستمرار مع البيئات المتغيرة وظروف المهام المُحدَّثة. وسعياً لسد هذه الفجوة، نقدم EvoArena، وهي مجموعة معايير تقييم تُصوّر التغيرات البيئية على أنها تسلسلات من التحديثات التدريجية عبر المجالات الطرفية والبرمجية والاجتماعية. ونقترح أيضاً EvoMem، وهو نموذج ذاكرة قائم على الرقع يسجل تطور الذاكرة على شكل سجلات تحديث منظمة، مما يمكّن agents من الاستدلال على التطور البيئي من خلال التغيرات الحاصلة في ذاكرتها. وتُظهر التجارب أن agents الحالية تواجه تحديات كبيرة في EvoArena، حيث حققت متوسط دقة يبلغ 39.6% عبر المجالات الطرفية والبرمجية والاجتماعية المتعلقة بالتفضيلات المتطورة. ويحسّن EvoMem الأداء بشكل متسق، محققاً متوسط زيادة قدره 1.5% على EvoArena، بالإضافة إلى تحسين معايير التقييم القياسية مثل GAIA وLoCoMo بنسبة 6.1% و4.8% على التوالي. وعلاوة على المهام الفردية، يحسّن EvoMem دقة مستوى السلسلة بنسبة 3.7% إضافية على EvoArena، حيث يتطلب النجاح إكمال تسلسل متتابع من المهام الفرعية التطورية المترابطة. ويُظهر التحليل الآلي أن EvoMem يعزز التقاط الأدلة داخل الذاكرة، مما يدل على حفظ أفضل لحالات البيئة المتطورة بشكل كامل. وتسلط نتائجنا الضوء على أهمية نمذجة التطور في كل من عمليات التقييم والذاكرة لضمان النشر الموثوق لـ agents.