HyperAIHyperAI

Command Palette

Search for a command to run...

Pré-entraînement des Modèles de Langage avec Typage Latent Éparse

Liliang Ren Zixuan Zhang Han Wang Clare R. Voss Chengxiang Zhai Heng Ji

Résumé

Les grands modèles pré-entraînés de langage (PLM) modernes ont connu un succès considérable sur une large gamme de tâches en aval. Toutefois, la plupart des objectifs d’entraînement préalable des modèles de langage se concentrent uniquement sur la reconstruction du texte, sans chercher à apprendre des représentations latentes interprétables au niveau des phrases. Dans cet article, nous proposons un nouvel objectif d’entraînement préalable, appelé Sparse Latent Typing, qui permet aux modèles de comprendre plus profondément les phrases en extrayant de manière creuse des mots-clés au niveau de la phrase, associés à des types latents variés. Les résultats expérimentaux montrent que notre modèle est capable d’apprendre automatiquement, de manière auto-supervisée et sans recourir à aucune connaissance externe, des catégories de types latents interprétables. Par ailleurs, le modèle de langage pré-entraîné avec cet objectif améliore de manière significative les tâches liées à l’extraction d’information dans des scénarios supervisés ainsi qu’en contexte à faibles exemples. Notre code est disponible publiquement à l’adresse suivante : https://github.com/renll/SparseLT.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp