Apprentissage conjoint de l'étiquetage des phrases et des jetons

L'apprentissage de la construction de représentations textuelles dans des systèmes de bout en bout peut être difficile, car les langues naturelles sont hautement compositionnelles et les jeux de données annotés spécifiques à une tâche sont souvent limités en taille. Les méthodes permettant une supervision directe de la composition linguistique peuvent nous aider à guider les modèles en fonction des connaissances existantes, les régularisant vers des représentations plus robustes et interprétables. Dans cet article, nous examinons comment des objectifs à différents niveaux de granularité peuvent être utilisés pour apprendre de meilleures représentations linguistiques, et nous proposons une architecture pour l'apprentissage conjoint de l'étiquetage des phrases et des jetons (tokens). Les prédictions à chaque niveau sont combinées ensemble par un mécanisme d'attention, avec les étiquettes au niveau des jetons agissant également comme une supervision explicite pour composer les représentations au niveau des phrases. Nos expériences montrent que l'apprentissage conjoint de ces tâches à plusieurs niveaux permet au modèle d'obtenir des améliorations substantielles tant pour la classification des phrases que pour l'étiquetage séquentiel.