Modélisation de séquences semi-supervisée avec l'entraînement croisé

Les algorithmes d'apprentissage non supervisé de représentations, tels que word2vec et ELMo, améliorent la précision de nombreux modèles NLP supervisés, principalement parce qu'ils peuvent tirer parti de grandes quantités de texte non étiqueté. Cependant, les modèles supervisés ne s'entraînent que sur des données étiquetées spécifiques à la tâche lors de la phase d'entraînement principale. Nous proposons donc l'entraînement croisé (Cross-View Training, CVT), un algorithme d'apprentissage semi-supervisé qui améliore les représentations d'un encodeur de phrases Bi-LSTM en utilisant un mélange de données étiquetées et non étiquetées. Sur les exemples étiquetés, l'apprentissage supervisé standard est utilisé. Sur les exemples non étiquetés, CVT enseigne des modules de prédiction auxiliaires qui voient des vues restreintes de l'entrée (par exemple, seulement une partie d'une phrase) pour correspondre aux prédictions du modèle complet qui voit l'ensemble de l'entrée. Comme les modules auxiliaires et le modèle complet partagent des représentations intermédiaires, cela améliore à son tour le modèle complet. De plus, nous montrons que CVT est particulièrement efficace lorsqu'il est combiné avec l'apprentissage multi-tâches. Nous évaluons CVT sur cinq tâches d'étiquetage séquentiel, la traduction automatique et l'analyse syntaxique dépendancielle, obtenant des résultats à l'état de l'art.