vor 17 Tagen

Mehraufgabenverstärkendes Lernen mit weicher Modularisierung

Ruihan Yang, Huazhe Xu, Yi Wu, Xiaolong Wang

Abstract

Mehraufgaben-Lernen stellt eine äußerst herausfordernde Aufgabe im Bereich des Verstärkungslernens dar. Während die gleichzeitige Trainings mehrerer Aufgaben es den Politiken ermöglicht, Parameter zwischen verschiedenen Aufgaben zu teilen, wird das Optimierungsproblem komplex: Es ist weiterhin unklar, welche Netzwerkparameter über Aufgaben hinweg wiederverwendet werden sollten, und wie die Gradienten aus verschiedenen Aufgaben sich gegenseitig beeinflussen können. Daher führen wir anstelle einer naiven Parameterweiterverwendung über Aufgaben hinweg eine explizite Modularisierungstechnik in der Politikrepräsentation ein, um dieses Optimierungsproblem zu mildern. Gegeben ein Basis-Politiknetzwerk entwerfen wir ein Routing-Netzwerk, das verschiedene Routing-Strategien schätzt, um das Basisnetzwerk für jede Aufgabe neu zu konfigurieren. Anstelle der direkten Auswahl einer Route für jede Aufgabe nutzt unsere aufgabe-spezifische Politik eine Methode namens weiche Modularisierung, um alle möglichen Routen weich zu kombinieren. Dies macht sie besonders gut geeignet für sequenzielle Aufgaben. Wir testen unsere Methode an verschiedenen Roboter-Manipulationsaufgaben in Simulation und zeigen, dass sie sowohl die Stichproben-Effizienz als auch die Leistung im Vergleich zu starken Baselines erheblich verbessert.