Command Palette
Search for a command to run...
Game-TARS: Vortrainierte Grundmodell für skalierbare, allgemeine multimodale Spielagenten

Abstract
Wir stellen Game-TARS vor, einen generalistischen Spielagenten, der mit einem einheitlichen, skalierbaren Aktionsraum trainiert wurde, der auf menschenorientierten nativen Tastatur-Maus-Eingaben basiert. Im Gegensatz zu API- oder GUI-basierten Ansätzen ermöglicht dieses Paradigma eine großskalige kontinuierliche Vortrainierung über heterogene Domänen hinweg, darunter Betriebssysteme, Webanwendungen und Simulationsspiele. Game-TARS wurde mit über 500 Milliarden Tokens vortrainiert, wobei vielfältige Zustandsverläufe und multimodale Daten verwendet wurden. Zu den zentralen Techniken zählen eine abklingende kontinuierliche Verlustfunktion zur Reduktion kausaler Verwirrung sowie eine effiziente Sparse-Thinking-Strategie, die die Balance zwischen Tiefe der Schlussfolgerung und Rechenkosten optimiert. Experimente zeigen, dass Game-TARS bei offenen Welt-Aufgaben im Minecraft-Spiel etwa die doppelte Erfolgsrate im Vergleich zum vorherigen SOTA-Modell erreicht, nahe an der Allgemeingültigkeit von unerfahrenen Menschen bei unbekannten Web-3D-Spielen liegt und GPT-5, Gemini-2.5-Pro und Claude-4-Sonnet in FPS-Benchmarks übertrifft. Skalierungsergebnisse sowohl im Trainings- als auch im Testzeitraum bestätigen, dass der einheitliche Aktionsraum bei der Skalierung auf übergeordnete Spiele und multimodale Daten kontinuierliche Verbesserungen ermöglicht. Unsere Ergebnisse zeigen, dass einfache, skalierbare Aktionsdarstellungen in Kombination mit großflächigem Vortraining einen vielversprechenden Weg hin zu generalistischen Agenten mit breiten Fähigkeiten im Umgang mit Computern darstellen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.