HyperAIHyperAI
il y a 2 mois

SemiReward : Un Modèle de Récompense Général pour l'Apprentissage Semi-supervisé

Li, Siyuan ; Jin, Weiyang ; Wang, Zedong ; Wu, Fang ; Liu, Zicheng ; Tan, Cheng ; Li, Stan Z.
SemiReward : Un Modèle de Récompense Général pour l'Apprentissage Semi-supervisé
Résumé

L'apprentissage semi-supervisé (SSL) a connu de grands progrès grâce à diverses améliorations du cadre d'auto-entraînement avec l'étiquetage pseudo. Le principal défi est de savoir comment distinguer les étiquettes pseudo de haute qualité du biais de confirmation. Cependant, les stratégies existantes de sélection d'étiquettes pseudo sont limitées à des schémas prédéfinis ou à des politiques complexes spécialement conçues pour la classification, ne parvenant pas à atteindre simultanément des étiquettes de haute qualité, une convergence rapide et une polyvalence des tâches. Pour ces objectifs, nous proposons un cadre de récompense semi-supervisé (SemiReward) qui prédit des scores de récompense pour évaluer et filtrer les étiquettes pseudo de haute qualité, ce qui peut être intégré aux méthodes SSL principales dans une large gamme de types et scénarios de tâches. Pour atténuer le biais de confirmation, SemiReward est entraîné en ligne en deux phases avec un modèle générateur et une stratégie de sous-échantillonnage. Des expériences approfondies sur 13 benchmarks SSL standard couvrant trois modalités montrent que SemiReward réalise des gains de performance significatifs et des vitesses de convergence plus rapides par rapport à Pseudo Label, FlexMatch et Free/SoftMatch. Le code et les modèles sont disponibles sur https://github.com/Westlake-AI/SemiReward.

SemiReward : Un Modèle de Récompense Général pour l'Apprentissage Semi-supervisé | Articles de recherche récents | HyperAI