CURL: Kontrastive unbeaufsichtigte Darstellungen für Verstärkendes Lernen

Wir präsentieren CURL: Contrastive Unsupervised Representations for Reinforcement Learning. CURL extrahiert hochwertige Merkmale aus rohen Pixeln mittels kontrastiver Lernverfahren und führt eine off-policy Steuerung auf Basis der extrahierten Merkmale durch. CURL übertrifft vorherige pixelbasierte Methoden – sowohl modellbasierte als auch modellfreie – bei komplexen Aufgaben im DeepMind Control Suite und in Atari-Spielen, wobei jeweils eine Leistungssteigerung um den Faktor 1,9 beziehungsweise 1,2 bei den Benchmark-Schritten von 100.000 Umwelt- und Interaktions-Schritten erreicht wird. Im DeepMind Control Suite ist CURL das erste bildbasierte Verfahren, das die Stichproben-Effizienz von Methoden nahezu erreicht, die auf Zustandsmerkmalen basieren. Der Quellcode ist öffentlich zugänglich und steht unter https://github.com/MishaLaskin/curl bereit.