Une transformation probabiliste des anomalies basées sur la distance

Les scores fournis par les méthodes de détection des anomalies basées sur les distances sont difficiles à interpréter, ce qui rend complexe la détermination d’un seuil de séparation entre les points de données normaux et les anomalies sans contexte supplémentaire. Nous décrivons une transformation générique qui convertit les scores d’anomalie basés sur les distances en estimations interprétables et probabilistes. Cette transformation préserve l’ordre relatif (ranking-stable) des scores et accentue le contraste entre les échantillons normaux et les anomalies. La détermination des relations de distance entre les points de données est nécessaire pour identifier les voisins les plus proches, pourtant la plupart des distances calculées sont généralement rejetées. Nous montrons que les distances par rapport aux autres points de données peuvent être utilisées pour modéliser des distributions de probabilité des distances, et que ces distributions peuvent ensuite être exploitées pour transformer les scores d’anomalie basés sur les distances en probabilités d’anomalie. Nos expériences démontrent que cette transformation probabiliste n’altère pas la performance de détection sur de nombreuses bases de données tabulaires et d’images, tout en produisant des scores d’anomalie interprétables avec un contraste accru entre les échantillons normaux et les anomalies. Ce travail s’applique de manière générale à une large gamme de méthodes de détection d’anomalies basées sur les distances, et puisqu’il repose sur les calculs de distances existants, il n’ajoute qu’un surcoût computationnel négligeable.