Command Palette
Search for a command to run...
Lumine: Ein offenes Rezept zur Entwicklung generalisierter Agenten in 3D-Offenwelten
Lumine: Ein offenes Rezept zur Entwicklung generalisierter Agenten in 3D-Offenwelten
Zusammenfassung
Wir stellen Lumine vor, das erste offene Rezept für die Entwicklung allgemeiner Agenten, die in Echtzeit komplexe, stundenlange Missionen in anspruchsvollen 3D-Offenwelt-Umgebungen absolvieren können. Lumine folgt einem menschenähnlichen Interaktionsparadigma, das Wahrnehmung, Schlussfolgerung und Aktion end-to-end integriert und durch ein Vision-Sprache-Modell angetrieben wird. Es verarbeitet rohe Pixel mit 5 Hz, um präzise 30-Hz-Tastatur-Maus-Aktionen zu generieren, und aktiviert die Schlussfolgerung nur dann, wenn dies erforderlich ist. In Genshin Impact trainiert, schafft Lumine die gesamte fünfstündige Hauptstory von Mondstadt mit menschennaher Effizienz und folgt natürlichsprachlichen Anweisungen, um eine breite Palette von Aufgaben in 3D-Offenwelt-Exploration und 2D-GUI-Manipulation – inklusive Sammlung, Kampf, Rätsellösung und Interaktion mit NPCs – zu erfüllen. Neben seiner Leistung innerhalb des Trainingsdomänen zeigt Lumine starke Fähigkeiten der null-schrittübergreifenden Generalisierung auf andere Spiele. Ohne jegliche Nachjustierung gelingt es ihm, 100-minütige Missionen in Wuthering Waves und das komplette fünfstündige erste Kapitel von Honkai: Star Rail abzuschließen. Diese vielversprechenden Ergebnisse unterstreichen die Effektivität von Lumine in unterschiedlichen Welten und Interaktionsdynamiken und markieren einen konkreten Schritt hin zu allgemeinen Agenten in offenen, unbeschränkten Umgebungen.