vor 10 Stunden

Jundong Xu Qingchuan Li Jiaying Wu Yihuai Lan Shuyue Stella Li Huichi Zhou Bowen Jiang Lei Wang Jun Wang Anh Tuan Luu

Zusammenfassung

Large Language Model (LLM) agents haben auf einer Vielzahl von Benchmarks starke Leistungen erzielt, wobei die meisten Bewertungen von statischen Umgebungen ausgehen. Im Gegensatz dazu ist der reale Einsatz inhärent dynamisch und erfordert, dass agents ihr Wissen, ihre Fähigkeiten und ihr Verhalten kontinuierlich an sich ändernde Umgebungen sowie aktualisierte Aufgabenbedingungen anpassen. Um diese Lücke zu schließen, stellen wir EvoArena vor, eine Benchmark-Suite, die Umweltveränderungen als Sequenzen progressiver Updates über die Terminal-, Software- und Sozialdomänen hinweg modelliert. Darüber hinaus schlagen wir EvoMem vor, ein patch-basiertes Speicherparadigma, das die Entwicklung des Speichers als strukturierte Update-Historien dokumentiert und agents ermöglicht, durch Veränderungen in ihrem Speicher auf die Entwicklung der Umwelt zu schließen. Experimente zeigen, dass aktuelle agents auf EvoArena Schwierigkeiten haben und über die sich entwickelnden Terminal-, Software- und Sozialpräferenzdomänen eine durchschnittliche Genauigkeit von 39,6 % erzielen. EvoMem verbessert die Leistung konsistent, erzielt auf EvoArena einen durchschnittlichen Zuwachs von 1,5 % und steigert zudem die Leistung auf Standardbenchmarks wie GAIA und LoCoMo um 6,1 % bzw. 4,8 %. Über einzelne Aufgaben hinaus verbessert EvoMem die Genauigkeit auf Kettenebene auf EvoArena um weitere 3,7 %, wobei der Erfolg das Abschließen einer aufeinanderfolgenden Sequenz verwandter evolutionärer Unteraufgaben erfordert. Mechanistische Analysen zeigen, dass EvoMem die Erfassung von Evidenz im Speicher verbessert, was auf eine bessere Bewahrung vollständiger Zustände sich entwickelnder Umgebungen hindeutet. Unsere Ergebnisse unterstreichen die Bedeutung der Modellierung von Evolution sowohl in der Bewertung als auch im Speicher für einen zuverlässigen Einsatz von agents.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Auf Discord diskutieren

vor 10 Stunden

Agent

LLM

Jundong Xu Qingchuan Li Jiaying Wu Yihuai Lan Shuyue Stella Li Huichi Zhou Bowen Jiang Lei Wang Jun Wang Anh Tuan Luu

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Auf Discord diskutieren

vor 10 Stunden

Agent

LLM

Jundong Xu Qingchuan Li Jiaying Wu Yihuai Lan Shuyue Stella Li Huichi Zhou Bowen Jiang Lei Wang Jun Wang Anh Tuan Luu

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

EvoArena: Verfolgen der Gedächtnisevolution für robuste LLM Agents in dynamischen Umgebungen

Jundong Xu Qingchuan Li Jiaying Wu Yihuai Lan Shuyue Stella Li Huichi Zhou Bowen Jiang Lei Wang Jun Wang Anh Tuan Luu4 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

EvoArena: Verfolgen der Gedächtnisevolution für robuste LLM Agents in dynamischen Umgebungen

Jundong Xu Qingchuan Li Jiaying Wu Yihuai Lan Shuyue Stella Li Huichi Zhou Bowen Jiang Lei Wang Jun Wang Anh Tuan Luu4 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

EvoArena: Verfolgen der Gedächtnisevolution für robuste LLM Agents in dynamischen Umgebungen

Jundong Xu Qingchuan Li Jiaying Wu Yihuai Lan Shuyue Stella Li Huichi Zhou Bowen Jiang Lei Wang Jun Wang Anh Tuan Luu4 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Jundong Xu Qingchuan Li Jiaying Wu Yihuai Lan Shuyue Stella Li Huichi Zhou Bowen Jiang Lei Wang Jun Wang Anh Tuan Luu

Jundong Xu Qingchuan Li Jiaying Wu Yihuai Lan Shuyue Stella Li Huichi Zhou Bowen Jiang Lei Wang Jun Wang Anh Tuan Luu

Jundong Xu Qingchuan Li Jiaying Wu Yihuai Lan Shuyue Stella Li Huichi Zhou Bowen Jiang Lei Wang Jun Wang Anh Tuan Luu