Clusterabilité comme alternative aux points d’ancrage lors de l’apprentissage avec des étiquettes bruitées

La matrice de transition du bruit d’étiquetage, qui caractérise les probabilités qu’un exemple d’apprentissage soit incorrectement annoté, joue un rôle fondamental dans la conception de solutions populaires pour l’apprentissage avec des étiquettes bruyantes. Les travaux existants s’appuient fortement sur la recherche de « points d’ancrage » ou de leurs approximations, définis comme des exemples appartenant presque certainement à une classe donnée. Toutefois, la détection de ces points d’ancrage reste une tâche non triviale, et la précision de l’estimation en est souvent limitée par le nombre de points d’ancrage disponibles. Dans cet article, nous proposons une alternative à cette approche. Notre contribution principale réside dans la découverte d’une procédure d’estimation efficace fondée sur une condition de clusterabilité. Nous démontrons qu’avec des représentations de caractéristiques clusterables, l’utilisation de consensus d’ordre jusqu’au troisième entre les étiquettes bruyantes de représentations voisines suffit à estimer une matrice de transition unique. Par rapport aux méthodes basées sur les points d’ancrage, notre approche exploite un nombre nettement plus élevé d’exemples et bénéficie d’une complexité d’échantillonnage bien meilleure. Nous illustrons la précision de notre estimation ainsi que ses avantages à l’aide d’étiquettes bruyantes synthétiques (sur CIFAR-10/100) et d’étiquettes réelles au niveau humain (sur Clothing1M et sur un ensemble d’étiquettes humaines que nous avons collectées pour CIFAR-10). Notre code ainsi que les étiquettes bruyantes au niveau humain pour CIFAR-10 sont disponibles à l’adresse suivante : https://github.com/UCSC-REAL/HOC.