Visualisations interprétables avec des réseaux d'embeddings différenciateurs

Nous présentons un algorithme de visualisation fondé sur un nouveau régime d’entraînement non supervisé et une fonction de perte pour un réseau neuronal siamois, appelé Réseaux d’Emboîtement Différenciateurs (DEN). Le réseau siamois identifie des caractéristiques différenciantes ou similaires entre des paires spécifiques d’échantillons au sein d’un ensemble de données, puis utilise ces caractéristiques pour projeter l’ensemble de données dans un espace de dimension réduite, où il peut être visualisé. Contrairement aux algorithmes de visualisation existants tels que UMAP ou $t$-SNE, DEN est paramétrique, ce qui permet son interprétation par des méthodes telles que SHAP. Pour interpréter DEN, nous avons conçu un algorithme de clustering paramétrique end-to-end reposant sur la visualisation, puis nous avons exploité les scores SHAP afin d’identifier les caractéristiques de l’espace d’échantillonnage qui sont essentielles à la compréhension des structures visuelles observées, en fonction des clusters détectés. Nous comparons les visualisations obtenues avec DEN à celles produites par des techniques existantes sur divers ensembles de données, incluant des données d’images et des données scRNA-seq. Nous montrons ensuite que notre algorithme de clustering atteint des performances comparables à l’état de l’art, bien qu’il n’ait pas besoin de connaître à l’avance le nombre de clusters, et établit un nouveau record sur FashionMNIST. Enfin, nous démontrons la capacité de DEN à identifier des caractéristiques différenciantes au sein d’un ensemble de données. Le code est disponible à l’adresse suivante : https://github.com/isaacrob/DEN