Transformée de distance à variation locale pour la détection non supervisée d’anomalies visuelles

La détection non supervisée des anomalies sur des données d’images est notoirement instable. Nous pensons que cela s’explique par le fait que de nombreux détecteurs classiques d’anomalies supposent implicitement que les données sont à faible dimension. Or, les données d’images sont toujours à haute dimension. Bien qu’il soit possible de projeter les images dans un espace d’embedding à faible dimension, ces projections reposent sur des transformations globales qui tronquent les variations mineures. Comme les anomalies sont rares, l’embedding final manque souvent des variations clés nécessaires pour distinguer les instances anormales des instances normales. Ce papier propose un nouvel embedding fondé sur un ensemble de projections locales variant selon les données, chaque projection étant chargée de préserver les variations qui distinguent un cluster local d’instances par rapport à toutes les autres instances. L’embedding local variable garantit que les variations permettant de distinguer les anomalies sont conservées, tout en permettant, simultanément, d’inférer statistiquement la probabilité qu’une instance appartienne à un cluster à partir de la projection unidimensionnelle locale associée à ce cluster. L’agrégation statistique des probabilités d’appartenance à un cluster pour une instance donne une mesure globale de son affinité vis-à-vis de l’ensemble des données, ce qui fait émerger les anomalies sous la forme d’instances dont les scores d’affinité sont étonnamment faibles.