HyperAIHyperAI

Command Palette

Search for a command to run...

vor 10 Stunden
Agent
LLM

EvoArena: Verfolgen der Gedächtnisevolution für robuste LLM Agents in dynamischen Umgebungen

Zusammenfassung

Large Language Model (LLM) agents haben auf einer Vielzahl von Benchmarks starke Leistungen erzielt, wobei die meisten Bewertungen von statischen Umgebungen ausgehen. Im Gegensatz dazu ist der reale Einsatz inhärent dynamisch und erfordert, dass agents ihr Wissen, ihre Fähigkeiten und ihr Verhalten kontinuierlich an sich ändernde Umgebungen sowie aktualisierte Aufgabenbedingungen anpassen. Um diese Lücke zu schließen, stellen wir EvoArena vor, eine Benchmark-Suite, die Umweltveränderungen als Sequenzen progressiver Updates über die Terminal-, Software- und Sozialdomänen hinweg modelliert. Darüber hinaus schlagen wir EvoMem vor, ein patch-basiertes Speicherparadigma, das die Entwicklung des Speichers als strukturierte Update-Historien dokumentiert und agents ermöglicht, durch Veränderungen in ihrem Speicher auf die Entwicklung der Umwelt zu schließen. Experimente zeigen, dass aktuelle agents auf EvoArena Schwierigkeiten haben und über die sich entwickelnden Terminal-, Software- und Sozialpräferenzdomänen eine durchschnittliche Genauigkeit von 39,6 % erzielen. EvoMem verbessert die Leistung konsistent, erzielt auf EvoArena einen durchschnittlichen Zuwachs von 1,5 % und steigert zudem die Leistung auf Standardbenchmarks wie GAIA und LoCoMo um 6,1 % bzw. 4,8 %. Über einzelne Aufgaben hinaus verbessert EvoMem die Genauigkeit auf Kettenebene auf EvoArena um weitere 3,7 %, wobei der Erfolg das Abschließen einer aufeinanderfolgenden Sequenz verwandter evolutionärer Unteraufgaben erfordert. Mechanistische Analysen zeigen, dass EvoMem die Erfassung von Evidenz im Speicher verbessert, was auf eine bessere Bewahrung vollständiger Zustände sich entwickelnder Umgebungen hindeutet. Unsere Ergebnisse unterstreichen die Bedeutung der Modellierung von Evolution sowohl in der Bewertung als auch im Speicher für einen zuverlässigen Einsatz von agents.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp