il y a un mois

Amélioration des modèles de langage neuronaux par segmentation, attention et prédiction du futur

Hongyin Luo; Lan Jiang; Yonatan Belinkov; James Glass

Résumé

Les modèles de langage courants prévoient généralement le mot suivant en fonction du contexte. Dans cette étude, nous proposons une méthode qui améliore la modélisation linguistique en apprenant à aligner le contexte donné et la phrase suivante. Le modèle n'a pas besoin d'annotations linguistiques pour la segmentation des phrases. Au lieu de cela, nous définissons des hauteurs syntaxiques et des règles de segmentation des phrases, permettant au modèle d'induire automatiquement les phrases, de reconnaître leurs têtes spécifiques à la tâche, et de générer des plongements (embeddings) de phrases de manière non supervisée. Notre méthode peut facilement être appliquée à des modèles de langage avec différentes architectures de réseau, car un module indépendant est utilisé pour l'induction des phrases et l'alignement contexte-phrase, sans nécessiter de modifications dans le réseau sous-jacent de modélisation linguistique. Les expériences ont montré que notre modèle surpassait plusieurs modèles baselines performants sur différents ensembles de données. Nous avons atteint une nouvelle performance state-of-the-art d'une perplexité de 17,4 sur l'ensemble de données Wikitext-103. De plus, la visualisation des sorties du module d'induction des phrases a révélé que notre modèle est capable d'apprendre une connaissance structurelle approximative au niveau des phrases sans aucune annotation.