Verbesserung der Recheneffizienz im visuellen Verstärkungslernen mittels gespeicherter Embeddings

Neuere Fortschritte im off-policy Deep Reinforcement Learning (RL) haben zu beeindruckenden Erfolgen bei komplexen Aufgaben auf Basis visueller Beobachtungen geführt. Experience Replay verbessert die Sample-Effizienz durch die Wiederverwendung vergangener Erfahrungen, und convolutionale Neuronale Netze (CNNs) verarbeiten hochdimensionale Eingaben effektiv. Allerdings erfordern solche Techniken hohe Speicherkapazität und Rechenbandbreite. In diesem Paper präsentieren wir Stored Embeddings for Efficient Reinforcement Learning (SEER), eine einfache Modifikation bestehender off-policy RL-Methoden, um diese Anforderungen an Rechenleistung und Speicher zu verringern. Um die Rechenkosten bei Gradientenupdates in CNNs zu reduzieren, fixieren wir die unteren Schichten von CNN-Encodern früh im Trainingsprozess, da deren Parameter bereits früh konvergieren. Zudem senken wir den Speicherverbrauch, indem wir anstelle hochdimensionaler Bilder niedrigdimensionale latente Vektoren für das Experience Replay speichern. Dies ermöglicht eine adaptive Erhöhung der Kapazität des Replay-Puffers – eine nützliche Technik in speicherbeschränkten Umgebungen. In unseren Experimenten zeigen wir, dass SEER die Leistung von RL-Agenten nicht beeinträchtigt, während gleichzeitig Rechenressourcen und Speicherbedarf erheblich gesenkt werden, über eine Vielzahl von DeepMind Control-Umgebungen und Atari-Spielen hinweg.