Vers l’apprentissage actif robuste et reproductible à l’aide des réseaux de neurones

L’apprentissage actif (AL) est un paradigme prometteur en apprentissage automatique (ML) capable de traiter de grandes quantités de données non étiquetées, tout en réduisant les coûts d’annotation dans des domaines où l’étiquetage est coûteux ou difficile. Les méthodes récemment proposées basées sur les réseaux de neurones utilisent diverses heuristiques pour atteindre cet objectif. Dans cette étude, nous démontrons qu’avec des conditions expérimentales identiques, différents types d’algorithmes d’apprentissage actif (basés sur l’incertitude, la diversité ou les comités) produisent des gains incohérents par rapport à une stratégie de base par échantillonnage aléatoire. À travers une série d’expériences contrôlées, en tenant compte des sources de stochasticité, nous montrons que la variance des performances obtenues par les algorithmes d’AL peut entraîner des résultats non conformes aux observations rapportées précédemment. Nous constatons également que, sous une forte régularisation, les méthodes d’AL ne présentent qu’un avantage marginal ou aucun avantage significatif par rapport à l’échantillonnage aléatoire dans diverses conditions expérimentales. Enfin, nous proposons un ensemble de recommandations visant à évaluer de manière rigoureuse les résultats obtenus avec un nouvel algorithme d’AL, afin d’assurer la reproductibilité et la robustesse face aux variations des conditions expérimentales. Nous mettons à disposition nos codes pour faciliter l’évaluation de l’AL. Nous sommes convaincus que nos résultats et nos recommandations contribueront à promouvoir une recherche reproductible dans le domaine de l’apprentissage actif basé sur les réseaux de neurones. Notre code est mis à disposition en open source à l’adresse suivante : https://github.com/PrateekMunjal/TorchAL