Bildaugmentierung ist alles, was Sie brauchen: Regularisierung von Deep Reinforcement Learning aus Pixeln

Wir schlagen eine einfache Datenaugmentierungstechnik vor, die auf herkömmliche modellfreie Verstärkungslernalgorithmen angewendet werden kann und ein robusteres Lernen direkt aus Bildern ermöglicht, ohne dass zusätzliche Verlustfunktionen oder Vortrainingsnotwendig sind. Der Ansatz nutzt Eingabestörungen, die üblicherweise in Aufgaben der Computer Vision eingesetzt werden, um die Wertefunktion zu regularisieren. Bestehende modellfreie Ansätze wie Soft Actor-Critic (SAC) sind nicht in der Lage, tiefe Netze effektiv aus Bilddaten zu trainieren. Die Einführung unserer Augmentierungsmethode verbessert jedoch die Leistung von SAC deutlich und ermöglicht es, auf der DeepMind Control Suite eine state-of-the-art-Leistung zu erreichen, die modellbasierte Methoden wie Dreamer, PlaNet und SLAC sowie kürzlich vorgeschlagene contrastive Learning-Ansätze (CURL) übertrifft. Unser Ansatz lässt sich mit beliebigen modellfreien Verstärkungslernalgorithmen kombinieren und erfordert lediglich geringfügige Anpassungen. Eine Implementierung ist unter https://sites.google.com/view/data-regularized-q verfügbar.