Perturber, Prédire et Reformuler : Apprentissage Semi-supervisé utilisant un Étudiant Bruyant pour la Génération de Légendes d'Images

Les méthodes récentes d’apprentissage semi-supervisé (SSL) se concentrent principalement sur les tâches de classification multi-classes. Ces tâches permettent une combinaison aisée des étiquettes de classe lors de l’augmentation des données, ce qui ne se généralise pas directement aux sorties structurées telles que les séquences de mots, rencontrées dans des tâches comme la génération de légendes d’images. Le cadre de formation « Noisy Student » est un paradigme récent d’SSL proposé pour la classification d’images, qui constitue une extension de l’apprentissage auto-étiqueté (self-training) et du apprentissage enseignant-étudiant. Dans ce travail, nous menons une analyse approfondie du cadre SSL « Noisy Student » appliqué à la tâche de génération de légendes d’images, et obtenons des résultats de pointe. L’algorithme original repose sur des étapes d’augmentation de données coûteuses en ressources, impliquant la perturbation des images brutes et le calcul des caractéristiques pour chaque image perturbée. Nous démontrons que, même en l’absence d’augmentation directe des images brutes, l’application de perturbations simples sur le modèle et les caractéristiques d’entrée pour le modèle étudiant s’avère bénéfique pour l’entraînement SSL. Nous montrons également comment un générateur de paraphrases peut être efficacement utilisé pour l’augmentation des étiquettes, améliorant ainsi la qualité des pseudo-étiquettes et conduisant à une amélioration significative des performances. Nos résultats finaux dans un cadre à données étiquetées limitées (1 % des données étiquetées de MS-COCO) surpassent les approches précédentes de l’état de l’art de 2,5 points sur le score BLEU4 et de 11,5 points sur le score CIDEr.