Régularisation Stricte pour Empêcher l’Effondrement de la Classification en Ligne Profonde sans Augmentation de Données

Le clustering en ligne profond (online deep clustering) fait référence à l'utilisation conjointe d'un réseau d'extraction de caractéristiques et d'un modèle de clustering pour attribuer des étiquettes de cluster à chaque nouveau point de données ou lot au fur et à mesure qu'ils sont traités. Bien que plus rapide et plus polyvalent que les méthodes hors ligne, le clustering en ligne peut facilement atteindre une solution dégénérée où l'encodeur mappe toutes les entrées au même point et les regroupe toutes dans un seul cluster. Les modèles existants réussis ont utilisé diverses techniques pour éviter ce problème, la plupart nécessitant une augmentation de données ou visant à rendre la moyenne des affectations douces sur l'ensemble du jeu de données identique pour chaque cluster. Nous proposons une méthode qui n'exige pas d'augmentation de données et qui, contrairement aux méthodes existantes, régularise les affectations dures. En utilisant un cadre bayésien, nous dérivons un objectif d'optimisation intuitif qui peut être intégré directement dans l'entraînement du réseau encodeur. Testée sur quatre jeux de données d'images et un jeu de données de reconnaissance d'activités humaines, notre méthode évite la dégénérescence de manière plus robuste que les autres méthodes et conduit à un clustering plus précis. Nous menons également des expériences et analyses supplémentaires justifiant notre choix de régulariser les affectations dures de clusters. Le code est disponible sur https://github.com/Lou1sM/online_hard_clustering.