vor einem Monat

Schätzung der Befähigung von Sprachmodell-Agenten

Jinyeop Song Jeff Gore Max Kleiman-Weiner

Abstract

Mit der zunehmenden Fähigkeit von Sprachmodellen (Language Models, LM) und ihrem breiteren Zugang zu realweltbasierten Werkzeugen wächst die Notwendigkeit nach skalierbaren Evaluationsrahmen für agentele Fähigkeiten. Konventionelle Benchmark-basierte Evaluierungen sind jedoch aufwändig zu gestalten und erfordern von menschlichen Designern die Entwicklung sinnvoller Aufgaben, die Aussagen über die allgemeinen Modellfähigkeiten liefern. In dieser Arbeit schlagen wir eine informationstheoretisch fundierte Bewertungsmethode basierend auf dem Konzept der „Empowerment“ vor – der gegenseitigen Information zwischen den Aktionen eines Agents und zukünftigen Zuständen – als offene, erweiterbare Methode zur Bewertung von LM-Agenten. Wir stellen EELMA (Estimating Empowerment of Language Model Agents) vor, einen Algorithmus zur Approximation der effektiven Empowerment aus mehrschrittigen Textinteraktionen. Wir validieren EELMA sowohl in Sprachspielen als auch in skalierten, realitätsnahen Szenarien des Web-Browseings. Unsere Ergebnisse zeigen, dass die Empowerment-Werte stark mit der durchschnittlichen Aufgabenleistung korrelieren, dass Umweltkomplexität sowie agentele Faktoren wie Chain-of-Thought, Modellgröße und Speicherlänge signifikanten Einfluss auf die geschätzte Empowerment haben, und dass Zustände und Aktionen mit hoher Empowerment häufig entscheidende Momente für allgemeine Fähigkeiten darstellen. Zusammenfassend demonstrieren diese Ergebnisse, dass die Empowerment als ansprechender, allgemein verwendbarer Metrik zur Bewertung und Überwachung von LM-Agenten in komplexen, offenen Umgebungen geeignet ist.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Schätzung der Befähigung von Sprachmodell-Agenten

Jinyeop Song Jeff Gore Max Kleiman-Weiner

Abstract

KI mit KI entwickeln

Hyper Newsletters