Une Approche Unifiée pour l'Interprétation des Prédictions de Modèles

Comprendre pourquoi un modèle fait une certaine prédiction peut être aussi crucial que la précision de cette prédiction dans de nombreuses applications. Cependant, la plus haute précision pour de grands ensembles de données modernes est souvent atteinte par des modèles complexes que même les experts peinent à interpréter, tels que les modèles d'ensemble ou les modèles d'apprentissage profond, créant ainsi une tension entre précision et interprétabilité. Pour répondre à ce problème, diverses méthodes ont récemment été proposées afin d'aider les utilisateurs à interpréter les prédictions des modèles complexes, mais il est souvent peu clair comment ces méthodes sont liées et quand une méthode est préférable à une autre. Nous présentons donc un cadre unifié pour l'interprétation des prédictions, SHAP (SHapley Additive exPlanations). SHAP attribue à chaque caractéristique une valeur d'importance pour une prédiction particulière. Ses composantes novatrices incluent : (1) l'identification d'une nouvelle classe de mesures d'importance additive des caractéristiques, et (2) des résultats théoriques montrant qu'il existe une solution unique dans cette classe possédant un ensemble de propriétés souhaitables. Cette nouvelle classe unifie six méthodes existantes, ce qui est remarquable car plusieurs méthodes récentes appartenant à cette classe manquent des propriétés souhaitables proposées. Sur la base des insights tirés de cette unification, nous présentons de nouvelles méthodes qui montrent une meilleure performance computationnelle et/ou une meilleure cohérence avec l'intuition humaine par rapport aux approches précédentes.