Command Palette
Search for a command to run...
Schätzung der Befähigung von Sprachmodell-Agenten
Jinyeop Song Jeff Gore Max Kleiman-Weiner

Abstract
Mit der zunehmenden Fähigkeit von Sprachmodellen (Language Models, LM) und ihrem breiteren Zugang zu realweltbasierten Werkzeugen wächst die Notwendigkeit nach skalierbaren Evaluationsrahmen für agentele Fähigkeiten. Konventionelle Benchmark-basierte Evaluierungen sind jedoch aufwändig zu gestalten und erfordern von menschlichen Designern die Entwicklung sinnvoller Aufgaben, die Aussagen über die allgemeinen Modellfähigkeiten liefern. In dieser Arbeit schlagen wir eine informationstheoretisch fundierte Bewertungsmethode basierend auf dem Konzept der „Empowerment“ vor – der gegenseitigen Information zwischen den Aktionen eines Agents und zukünftigen Zuständen – als offene, erweiterbare Methode zur Bewertung von LM-Agenten. Wir stellen EELMA (Estimating Empowerment of Language Model Agents) vor, einen Algorithmus zur Approximation der effektiven Empowerment aus mehrschrittigen Textinteraktionen. Wir validieren EELMA sowohl in Sprachspielen als auch in skalierten, realitätsnahen Szenarien des Web-Browseings. Unsere Ergebnisse zeigen, dass die Empowerment-Werte stark mit der durchschnittlichen Aufgabenleistung korrelieren, dass Umweltkomplexität sowie agentele Faktoren wie Chain-of-Thought, Modellgröße und Speicherlänge signifikanten Einfluss auf die geschätzte Empowerment haben, und dass Zustände und Aktionen mit hoher Empowerment häufig entscheidende Momente für allgemeine Fähigkeiten darstellen. Zusammenfassend demonstrieren diese Ergebnisse, dass die Empowerment als ansprechender, allgemein verwendbarer Metrik zur Bewertung und Überwachung von LM-Agenten in komplexen, offenen Umgebungen geeignet ist.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.