Transformaly -- Deux (espaces de caractéristiques) valent mieux qu’un

La détection d’anomalies est un domaine de recherche bien établi visant à identifier des échantillons situés en dehors d’une distribution prédéfinie. Un pipeline de détection d’anomalies se compose de deux étapes principales : (1) l’extraction de caractéristiques et (2) l’attribution d’un score de normalité. Des travaux récents ont utilisé des réseaux pré-entraînés pour l’extraction de caractéristiques, atteignant des résultats de pointe. Toutefois, l’utilisation de réseaux pré-entraînés ne tire pas pleinement parti des échantillons normaux disponibles lors de l’entraînement. Ce papier propose d’exploiter cette information en adoptant une stratégie d’apprentissage enseignant-élève. Dans notre cadre, un réseau enseignant pré-entraîné est utilisé pour entraîner un réseau élève sur les échantillons normaux du jeu d’entraînement. Étant donné que le réseau élève n’est entraîné qu’avec des exemples normaux, on s’attend à ce qu’il s’écarte du réseau enseignant dans les cas anormaux. Cette différence peut servir de représentation complémentaire au vecteur de caractéristiques pré-entraîné. Notre méthode, Transformaly, exploite un Vision Transformer (ViT) pré-entraîné pour extraire deux types de vecteurs de caractéristiques : les caractéristiques pré-entraînées (agnostiques) et les caractéristiques issues de l’apprentissage enseignant-élève (fine-tunées). Nous rapportons des résultats de pointe en termes d’AUROC, tant dans le cadre classique unimodal — où une seule classe est considérée comme normale et les autres comme anormales — que dans le cadre multimodal — où toutes les classes sauf une sont considérées comme normales, et une seule comme anormale. Le code est disponible à l’adresse suivante : https://github.com/MatanCohen1/Transformaly.