HyperAIHyperAI
il y a 2 mois

Exploration de la régularisation auto-supervisée pour l'apprentissage supervisé et semi-supervisé

Phi Vu Tran
Exploration de la régularisation auto-supervisée pour l'apprentissage supervisé et semi-supervisé
Résumé

Les récentes avancées dans l'apprentissage semi-supervisé ont montré un potentiel considérable pour surmonter une barrière majeure à la réussite des algorithmes d'apprentissage automatique modernes : l'accès à de vastes quantités de données d'entraînement étiquetées par des humains. Les algorithmes précédents basés sur la régularisation de cohérence peuvent exploiter l'abondance de données non étiquetées pour produire des résultats impressionnants sur plusieurs benchmarks semi-supervisés, approchant les performances des baselines supervisées robustes en utilisant seulement une fraction des données étiquetées disponibles. Dans ce travail, nous remettons en question le succès de longue date de la régularisation de cohérence en introduisant la régularisation auto-supervisée comme base pour combiner les représentations de caractéristiques sémantiques issues des données non étiquetées. Nous menons des expériences comparatives approfondies pour démontrer l'efficacité de la régularisation auto-supervisée pour la classification supervisée et semi-supervisée d'images sur les jeux de données de référence SVHN, CIFAR-10 et CIFAR-100. Nous présentons deux résultats principaux : (1) les modèles augmentés par la régularisation auto-supervisée améliorent considérablement les classifieurs supervisés traditionnels sans nécessiter de données non étiquetées ; (2) associés aux données non étiquetées, nos modèles offrent des performances semi-supervisées compétitives avec, et dans de nombreux cas supérieures aux, baselines de cohérence précédentes d'avant-garde. Enfin, nos modèles ont une utilité pratique en étant entraînés efficacement bout à bout et n'exigent aucun paramètre hyperparamétrique supplémentaire à ajuster pour obtenir des performances optimales au-delà du jeu standard utilisé pour entraîner les réseaux neuronaux. Le code source et les données sont disponibles à l'adresse suivante : https://github.com/vuptran/sesemi