ViZDoom: Eine auf Doom basierende AI-Forschungsplattform für visuelles Reinforcement Learning

Die jüngsten Fortschritte im Bereich der tiefen neuronalen Netze haben zu effektiven, auf visuellen Informationen basierenden Verstärkungslernmethoden geführt, die zur Erzielung menschlicher Leistungsniveaus bei der Steuerung von Atari 2600-Spielen aus Pixel-Daten eingesetzt wurden. Die Atari 2600-Spiele ähneln jedoch nicht realen Aufgaben, da sie unrealistische 2D-Umgebungen und eine Drittperson-Perspektive beinhalten. In dieser Arbeit schlagen wir eine neue Testplattform für Verstärkungslernforschung vor, die rohe visuelle Informationen in einer halbrealistischen 3D-Welt mit einer Erstperson-Perspektive verwendet. Die Software, genannt ViZDoom, basiert auf dem klassischen First-Person-Shooter-Videospiel Doom. Sie ermöglicht es, Bots zu entwickeln, die das Spiel unter Verwendung des Bildschirmbuffers spielen. ViZDoom ist leichtgewichtig, schnell und durch ein benutzerfreundliches Mechanismus von Benutzerszenarien hoch anpassbar. Im experimentellen Teil testen wir die Umgebung, indem wir versuchen, Bots für zwei Szenarien zu trainieren: eine grundlegende Bewegungs- und Schussaufgabe sowie ein komplexeres Labyrinth-Navigationsproblem. Unter Verwendung von Faltungsneuronalen Netzen (Convolutional Neural Networks) mit Q-Lernen und Erfahrungswiederholung (Experience Replay) konnten wir für beide Szenarien fähige Bots trainieren, die menschenähnliches Verhalten zeigen. Die Ergebnisse bestätigen die Nützlichkeit von ViZDoom als Forschungsplattform für KI und deuten darauf hin, dass visuelles Verstärkungslernen in realistischen 3D-Erstperson-Perspektiven-Umgebungen machbar ist.