HyperAIHyperAI
il y a 2 mois

Augmentation non supervisée des données pour l'entraînement par cohérence

Qizhe Xie; Zihang Dai; Eduard Hovy; Minh-Thang Luong; Quoc V. Le
Augmentation non supervisée des données pour l'entraînement par cohérence
Résumé

L'apprentissage semi-supervisé a récemment montré beaucoup de promesses pour améliorer les modèles d'apprentissage profond lorsque les données étiquetées sont rares. Une approche courante parmi les méthodes récentes consiste à utiliser une formation par cohérence sur un grand volume de données non étiquetées afin de contraindre les prédictions du modèle à être invariantes au bruit d'entrée. Dans ce travail, nous présentons une nouvelle perspective sur la manière d'appliquer efficacement le bruit aux exemples non étiquetés et soutenons que la qualité du bruit, en particulier celui produit par des méthodes avancées d'augmentation de données, joue un rôle crucial dans l'apprentissage semi-supervisé. En remplaçant des opérations simples de bruit par des méthodes avancées d'augmentation de données telles que RandAugment et la traduction inverse (back-translation), notre méthode apporte des améliorations substantielles dans six tâches linguistiques et trois tâches visuelles sous le même cadre de formation par cohérence. Sur le jeu de données IMDb pour la classification de texte, avec seulement 20 exemples étiquetés, notre méthode atteint un taux d'erreur de 4,20, surpassant le modèle state-of-the-art formé sur 25 000 exemples étiquetés. Sur un benchmark standard d'apprentissage semi-supervisé, CIFAR-10, notre méthode surpasse toutes les approches précédentes et atteint un taux d'erreur de 5,43 avec seulement 250 exemples. Notre méthode s'intègre également bien avec l'apprentissage par transfert, par exemple lors du fine-tuning à partir de BERT, et offre des améliorations dans le régime à forte disponibilité de données, comme ImageNet, qu'il y ait seulement 10 % de données étiquetées ou un ensemble complet de données étiquetées avec 1,3 million d'exemples supplémentaires non étiquetés. Le code est disponible à l'adresse https://github.com/google-research/uda.

Augmentation non supervisée des données pour l'entraînement par cohérence | Articles de recherche récents | HyperAI