Analyse der Policy-Distillation bei Multi-Task-Lernen und Meta-Reinforcement-Lernen in Meta-World

Die Policy-Distillation zerlegt ein Markov-Entscheidungsproblem (MDP) in verschiedene Teilbereiche und lernt in jedem einzelnen Abschnitt spezialisierte Expertenpolitiken, bevor diese zu einer einzigen globalen Politik für den gesamten Zustandsraum kombiniert werden. Ähnlich wie ein Sportteam aus verschiedenen Positionen besteht, die jeweils eigene Fähigkeiten beitragen, nutzt die Policy-Distillation die Struktur eines MDP, indem zunächst lokal angepasste Expertenpolitiken gelernt werden, die nicht übermäßig weit generalisieren müssen. Sobald diese lokalen Experten zu einer globalen Politik zusammengefasst werden, tragen sie jeweils die aus ihrem Teilraum erlernten Merkmale bei. Je nachdem, welchen Teil des Zustandsraums die globale Politik aktuell bewältigen muss, kann sie die spezifischen, aus der lokalen Politik für diesen Bereich gewonnenen Eigenschaften nutzen.Meta-Verstärkungslernen (Meta-RL) und Multi-Task-Lernen sind eng miteinander verwandte Forschungsfelder. Während Meta-RL darauf abzielt, neue Aufgaben auf Basis vorheriger Erfahrungen schnell zu lösen, konzentriert sich Multi-Task-Lernen stärker auf die Fähigkeit eines Algorithmus, gleichzeitig auf eine breite Verteilung von Aufgaben generalisieren zu können. Dennoch zeigt sich, dass ein erfolgreicher Meta-Lernansatz typischerweise mit einer besseren Leistung im Multi-Task-Lernen korreliert – und umgekehrt. Ein Agent, der sich schnell an eine neue Aufgabe anpassen kann, ist definitionsgemäß besser darin, diese Aufgabe zu lernen; ebenso ist ein Agent, der sich bereits auf viele Aufgaben generalisiert hat, wahrscheinlich schneller in der Lage, eine neue, aber verwandte Aufgabe zu erlernen. Da sowohl Meta-Lernen als auch Multi-Task-Lernen aus vielen einzelnen Aufgaben bestehen, sind sie naturgemäß gut geeignet für eine Partitionierung des Zustandsraums. Die Policy-Distillation hat bereits vielversprechende Ergebnisse im Multi-Task-Lernen gezeigt, doch die bisherigen Ergebnisse sind begrenzt und nicht ausreichend umfassend untersucht. In dieser Arbeit untersuchen wir die Anwendung eines Policy-Distillation-Algorithmus, namens Divide-and-Conquer (DnC), auf die Meta-World-Benchmark.Divide-and-Conquer (DnC) ist ein Policy-Distillation-Algorithmus, der einen Kontext verwendet, um Informationen über die Partitionen des Zustandsraums zu repräsentieren. Auf Basis dieser Kontexte werden lokale Politiken mit Hilfe von KL-Divergenz-Beschränkungen trainiert, um deren Ähnlichkeit untereinander zu gewährleisten. Diese lokalen Politiken werden anschließend zu einer globalen Politik kombiniert, wobei eine zusätzliche KL-Divergenz-Beschränkung angewandt wird.Meta-World ist eine neu entwickelte Benchmark für Multi-Task-Lernen und Meta-Lernen. Wir analysieren die Leistung von DnC sowohl im Meta-Learning (ML)- als auch im Multi-Task-Learning (MT)-Benchmark, wobei Trust-Region Policy Optimization (TRPO) als Referenzalgorithmus dient. Für den ML-Benchmark partitionieren wir den Zustandsraum nach den einzelnen Aufgaben für DnC. Während des Meta-Trainings verwenden wir die Trainingsaufgaben als Partitionen für DnC, wobei die Testaufgaben ausgeblendet bleiben. Sobald die finale globale Politik aus dem Meta-Training resultiert, wenden wir diese auf die Testaufgaben an, um die endgültigen Belohnungen und Erfolgsraten zu bestimmen. Für den MT-Benchmark partitionieren wir den Zustandsraum ebenfalls nach den einzelnen Aufgaben. Allerdings gibt es hier keine ausgeblendeten Aufgaben – DnC trainiert auf allen Aufgaben und wird auf denselben Aufgaben getestet. Zudem weisen die einzelnen Aufgaben variable Zielzustände auf, sodass die lokalen Politiken lernen müssen, sich an diese variierenden Zustände anzupassen. Die globale Politik muss nicht nur in der Lage sein, die unterschiedlichen Trainingsaufgaben zu lösen, sondern auch, sich an verschiedene Zielzustände innerhalb jeder einzelnen Aufgabe anzupassen.Wir stellen fest, dass DnC auf dem Meta-Learning-Benchmark die gleiche Leistung wie unsere Baseline, TRPO, erreicht. Wenn der Zustandsraum in die einzelnen Aufgaben partitioniert wird, sind die lokalen Politiken in der Lage, jeweils erfolgreich die einzelnen Aufgaben zu lösen, mit einer Erfolgsrate von etwa 4–5 %. Die aus diesen einzelnen Expertenpolitiken zusammengesetzte globale Politik zeigt dieselbe Leistung und denselben Erfolgsrate wie die lokalen Politiken. Auf dem Multi-Task-Learning-Benchmark erreicht DnC Erfolgsraten von etwa 65 %. Wir vermuten, dass dies darauf zurückzuführen ist, dass DnC ein Policy-Distillation-Algorithmus ist und die Testumgebungen im Multi-Task-Lernen die gleichen Aufgaben wie die Trainingsumgebungen enthalten. Dadurch kann DnC die einzelnen Aufgaben „merken“ und zu Testzeit in allen Aufgaben gut abschneiden. Im Gegensatz dazu ist es DnC bei Meta-Lernen schwieriger, sich auf neue Aufgaben zu testzeit adaptieren zu können, weshalb die Leistung deutlich schlechter ausfällt.