Apprentissage évolutionnaire d'arbres de décision interprétables

Au cours de la dernière décennie, les techniques d’apprentissage par renforcement ont atteint des performances au niveau humain sur plusieurs tâches. Toutefois, ces dernières années, la nécessité d’interprétabilité s’est imposée : nous devons être capables de comprendre le fonctionnement d’un système ainsi que les raisons sous-jacentes à ses décisions. Cette interprétabilité n’est pas seulement essentielle pour évaluer la sécurité des systèmes produits, mais elle permet également d’extraire des connaissances sur des problèmes encore inconnus. Bien qu’il existe certaines méthodes visant à optimiser des arbres de décision pour l’apprentissage par renforcement, celles-ci utilisent généralement des algorithmes gloutons ou ne tirent pas pleinement parti des récompenses fournies par l’environnement. Cela signifie que ces approches risquent facilement de s’arrêter dans des optima locaux. Dans ce travail, nous proposons une nouvelle approche de l’apprentissage par renforcement interprétable basée sur les arbres de décision. Nous présentons un schéma d’optimisation à deux niveaux qui combine les avantages des algorithmes évolutionnaires à ceux de l’apprentissage Q. Ainsi, nous décomposons le problème en deux sous-problèmes : celui de trouver une décomposition significative et utile de l’espace d’états, et celui d’associer une action à chaque état. Nous testons la méthode proposée sur trois benchmarks classiques de l’apprentissage par renforcement, où elle se révèle compétitive par rapport à l’état de l’art en termes de performance et d’interprétabilité. Enfin, une étude d’ablation confirme que l’utilisation du schéma d’optimisation à deux niveaux permet une amélioration significative des performances dans des environnements non triviaux, par rapport à une approche à une seule couche.