Evolutionäre Lernmethodik interpretierbarer Entscheidungsbäume

In den letzten zehn Jahren erreichten Verstärkungslernverfahren (Reinforcement Learning) menschliche Leistungsfähigkeit bei mehreren Aufgaben. In den letzten Jahren hat sich jedoch die Notwendigkeit der Interpretierbarkeit herausgebildet: Wir möchten verstehen können, wie ein System funktioniert und welche Gründe hinter seinen Entscheidungen stehen. Nicht nur, um die Sicherheit der resultierenden Systeme beurteilen zu können, sondern auch, um Wissen über unbekannte Probleme zu gewinnen. Obwohl einige Techniken existieren, die Entscheidungsbäume für das Verstärkungslernen optimieren, verwenden sie meist gierige Algorithmen oder nutzen die Belohnungen aus der Umgebung nicht aus. Dies führt dazu, dass diese Ansätze leicht in lokale Optima geraten können. In dieser Arbeit präsentieren wir einen neuartigen Ansatz für interpretierbares Verstärkungslernen, der Entscheidungsbäume nutzt. Wir stellen ein zweistufiges Optimierungsverfahren vor, das die Vorteile evolutionärer Algorithmen mit denen des Q-Lernens kombiniert. Auf diese Weise zerlegen wir das Problem in zwei Teilprobleme: das Problem der Findung einer sinnvollen und nützlichen Zerlegung des Zustandsraums sowie das Problem der Zuordnung einer Aktion zu jedem Zustand. Wir testen die vorgeschlagene Methode an drei bekannten Benchmark-Aufgaben des Verstärkungslernens und zeigen, dass sie sowohl in Bezug auf Leistungsfähigkeit als auch auf Interpretierbarkeit mit dem Stand der Technik konkurrieren kann. Schließlich führen wir eine Ablationsstudie durch, die bestätigt, dass das zweistufige Optimierungsverfahren im Vergleich zu einem einstufigen Optimierungsansatz eine Leistungssteigerung in nicht-trivialen Umgebungen ermöglicht.