il y a 18 jours

Pré-entraînement des Modèles de Langage avec Typage Latent Éparse

Liliang Ren, Zixuan Zhang, Han Wang, Clare R. Voss, Chengxiang Zhai, Heng Ji

Résumé

Les grands modèles pré-entraînés de langage (PLM) modernes ont connu un succès considérable sur une large gamme de tâches en aval. Toutefois, la plupart des objectifs d’entraînement préalable des modèles de langage se concentrent uniquement sur la reconstruction du texte, sans chercher à apprendre des représentations latentes interprétables au niveau des phrases. Dans cet article, nous proposons un nouvel objectif d’entraînement préalable, appelé Sparse Latent Typing, qui permet aux modèles de comprendre plus profondément les phrases en extrayant de manière creuse des mots-clés au niveau de la phrase, associés à des types latents variés. Les résultats expérimentaux montrent que notre modèle est capable d’apprendre automatiquement, de manière auto-supervisée et sans recourir à aucune connaissance externe, des catégories de types latents interprétables. Par ailleurs, le modèle de langage pré-entraîné avec cet objectif améliore de manière significative les tâches liées à l’extraction d’information dans des scénarios supervisés ainsi qu’en contexte à faibles exemples. Notre code est disponible publiquement à l’adresse suivante : https://github.com/renll/SparseLT.