Command Palette
Search for a command to run...

Abstract
Der Trainingsparadigma für große Sprachmodelle (LLMs) verschiebt sich von statischen Datensätzen hin zu erfahrungsbasierter Lernmethoden, bei denen Agenten Fähigkeiten durch Interaktion mit komplexen Umgebungen erwerben. Um diesen Übergang zu unterstützen, stellen wir GEM (General Experience Maker) vor – einen quelloffenen Umgebungssimulator, der speziell für die Ära der großen Sprachmodelle konzipiert ist. Ähnlich wie OpenAI-Gym für klassisches Verstärkendes Lernen (Reinforcement Learning, RL) bietet GEM einen standardisierten Rahmen für die Schnittstelle zwischen Umgebung und Agent, einschließlich asynchroner vektorisierter Ausführung zur Erzielung hoher Durchsatzraten sowie flexibler Wrapper für eine einfache Erweiterbarkeit. GEM verfügt zudem über eine vielfältige Sammlung von Umgebungen, robuste integrierte Tools sowie Einzel-Datei-Beispiel-Skripte, die die Nutzung von GEM mit fünf gängigen RL-Trainingsframeworks demonstrieren. Zusätzlich präsentieren wir eine Reihe von Baseline-Ergebnissen für 24 Umgebungen, die mit REINFORCE unter Verwendung von Return Batch Normalization (ReBN) erzielt wurden – ein Ansatz, der im Gegensatz zu GRPO mit dem vollen RL-Setting dichter Belohnungen pro Zug kompatibel ist und eine bessere Zuordnung von Verantwortung (Credit Assignment) ermöglicht. Wir führen zudem einen direkten Vergleich der Algorithmen PPO, GRPO und REINFORCE in sowohl ein- als auch mehrschrittigen Szenarien mittels GEM durch, um Einblicke in die algorithmischen Gestaltungsentscheidungen zu gewinnen. Schließlich fungiert GEM nicht nur als Trainingsumgebung, sondern auch als praktisches Evaluierungstool. Wir hoffen, dass dieses Framework die zukünftige Forschung zu agierenden LLMs beschleunigen wird.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.