Command Palette
Search for a command to run...
EvoArena: Verfolgen der Gedächtnisevolution für robuste LLM Agents in dynamischen Umgebungen
EvoArena: Verfolgen der Gedächtnisevolution für robuste LLM Agents in dynamischen Umgebungen
Zusammenfassung
Large Language Model (LLM) agents haben auf einer Vielzahl von Benchmarks starke Leistungen erzielt, wobei die meisten Bewertungen von statischen Umgebungen ausgehen. Im Gegensatz dazu ist der reale Einsatz inhärent dynamisch und erfordert, dass agents ihr Wissen, ihre Fähigkeiten und ihr Verhalten kontinuierlich an sich ändernde Umgebungen sowie aktualisierte Aufgabenbedingungen anpassen. Um diese Lücke zu schließen, stellen wir EvoArena vor, eine Benchmark-Suite, die Umweltveränderungen als Sequenzen progressiver Updates über die Terminal-, Software- und Sozialdomänen hinweg modelliert. Darüber hinaus schlagen wir EvoMem vor, ein patch-basiertes Speicherparadigma, das die Entwicklung des Speichers als strukturierte Update-Historien dokumentiert und agents ermöglicht, durch Veränderungen in ihrem Speicher auf die Entwicklung der Umwelt zu schließen. Experimente zeigen, dass aktuelle agents auf EvoArena Schwierigkeiten haben und über die sich entwickelnden Terminal-, Software- und Sozialpräferenzdomänen eine durchschnittliche Genauigkeit von 39,6 % erzielen. EvoMem verbessert die Leistung konsistent, erzielt auf EvoArena einen durchschnittlichen Zuwachs von 1,5 % und steigert zudem die Leistung auf Standardbenchmarks wie GAIA und LoCoMo um 6,1 % bzw. 4,8 %. Über einzelne Aufgaben hinaus verbessert EvoMem die Genauigkeit auf Kettenebene auf EvoArena um weitere 3,7 %, wobei der Erfolg das Abschließen einer aufeinanderfolgenden Sequenz verwandter evolutionärer Unteraufgaben erfordert. Mechanistische Analysen zeigen, dass EvoMem die Erfassung von Evidenz im Speicher verbessert, was auf eine bessere Bewahrung vollständiger Zustände sich entwickelnder Umgebungen hindeutet. Unsere Ergebnisse unterstreichen die Bedeutung der Modellierung von Evolution sowohl in der Bewertung als auch im Speicher für einen zuverlässigen Einsatz von agents.