Die NetHack-Lernumgebung

Fortschritte in den Algorithmen des Reinforcement Learnings (RL) gehen Hand in Hand mit der Entwicklung herausfordernder Umgebungen, die die Grenzen der aktuellen Methoden testen. Obwohl bestehende RL-Umgebungen entweder ausreichend komplex oder auf schnellen Simulationen basieren, sind sie selten beides. In diesem Beitrag stellen wir die NetHack Learning Environment (NLE) vor, eine skalierbare, prozedural generierte, stochastische, reichhaltige und anspruchsvolle Umgebung für RL-Forschung, die auf dem beliebten Einzelspieler-Terminal-basierten Roguelike-Spiel NetHack aufbaut. Wir argumentieren, dass NetHack ausreichend komplex ist, um langfristige Forschung zu Problemen wie Exploration, Planung, Fähigkeitsakquisition und sprachbedingtem RL zu fördern, während es gleichzeitig die benötigten Rechenressourcen erheblich reduziert, um eine große Menge an Erfahrung zu sammeln. Wir vergleichen NLE und seine Aufgabensammlung mit existierenden Alternativen und diskutieren, warum es ein ideales Medium zur Prüfung der Robustheit und systematischen Generalisierung von RL-Agenten darstellt. Anhand eines verteilten Deep-RL-Basisverfahrens und einer zufälligen Netzwerkdestillations-Exploration zeigen wir empirischen Erfolg in den frühen Stadien des Spiels sowie qualitative Analysen verschiedener im Umfeld trainierter Agenten. NLE ist Open Source unter https://github.com/facebookresearch/nle.