Hierarchische Bedürfnisanordnungen in einem Agenten erstellen
Wir präsentieren eine neuartige Methode zur Lernung hierarchischer Abstraktionen, die wettbewerbsfähige Ziele priorisieren und zu verbesserten globalen erwarteten Belohnungen führen. Unser Ansatz verwendet einen sekundären Belohnungsagenten mit mehreren skalaren Ausgaben, von denen jede einem bestimmten Abstraktionsniveau zugeordnet ist. Der traditionelle Agent lernt dann, diese Ausgaben in einer hierarchischen Weise zu maximieren, wobei jedes Niveau auf der Maximierung des vorherigen Niveaus konditioniert wird. Wir leiten eine Gleichung her, die diese skalaren Werte und die globale Belohnung nach Priorität ordnet, was eine Hierarchie von Bedürfnissen induziert, die für die Zielbildung maßgeblich ist. Experimentelle Ergebnisse im Umfeld Pendulum v1 zeigen eine überlegene Leistung im Vergleich zu einer Baseline-Implementierung. Wir erzielten Stand-of-the-Art-Ergebnisse.