il y a 11 jours

USB : Une base unifiée d'apprentissage semi-supervisé pour la classification

Yidong Wang, Hao Chen, Yue Fan, Wang Sun, Ran Tao, Wenxin Hou, Renjie Wang, Linyi Yang, Zhi Zhou, Lan-Zhe Guo, Heli Qi, Zhen Wu, Yu-Feng Li, Satoshi Nakamura, Wei Ye, Marios Savvides, Bhiksha Raj, Takahiro Shinozaki, Bernt Schiele, Jindong Wang, Xing Xie, Yue Zhang

Voir les détails de l'article

USB : Une base unifiée d'apprentissage semi-supervisé pour la classification

Résumé

L'apprentissage semi-supervisé (SSL) améliore la généralisation des modèles en exploitant de grandes quantités de données non étiquetées afin de compléter un ensemble limité d'exemples étiquetés. Toutefois, les protocoles d'évaluation actuellement populaires pour le SSL sont souvent restreints aux tâches de vision par ordinateur (CV). De plus, les travaux antérieurs entraînent généralement les réseaux neuronaux profonds depuis le début, ce qui est chronophage et contraire à une approche durable. Pour remédier à ces limitations, nous proposons une base d'évaluation unifiée pour le SSL (USB), dédiée à la classification, en sélectionnant 15 tâches diverses, exigeantes et complètes issues de trois domaines : vision par ordinateur (CV), traitement du langage naturel (NLP) et traitement audio. Sur ces tâches, nous évaluons de manière systématique les méthodes SSL dominantes, tout en mettant à disposition un code open-source modulaire et extensible, permettant une évaluation équitable de ces méthodes. Nous fournissons également des versions pré-entraînées des modèles neuronaux d'avant-garde pour les tâches de CV, afin de réduire les coûts liés à l'ajustement ultérieur. L'USB permet d'évaluer une même méthode SSL sur un plus grand nombre de tâches issues de divers domaines, tout en réduisant considérablement les ressources nécessaires. Plus précisément, sur une seule GPU NVIDIA V100, seuls 39 jours GPU sont requis pour évaluer FixMatch sur les 15 tâches de l'USB, contre 335 jours GPU (279 jours GPU sur 4 jeux de données CV, à l'exception d'ImageNet) nécessaires pour évaluer les mêmes méthodes sur 5 tâches CV avec TorchSSL.