HyperAIHyperAI

Command Palette

Search for a command to run...

DeepStruct : Préformation des modèles de langage pour la prédiction de structure

Chenguang Wang; Xiao Liu; Zui Chen; Haoyun Hong; Jie Tang; Dawn Song

Résumé

Nous présentons une méthode visant à améliorer les capacités de compréhension structurelle des modèles de langage. Contrairement aux approches précédentes qui affinent les modèles avec des augmentations spécifiques à la tâche, nous pré-entraînons les modèles de langage sur une collection de corpus indépendants des tâches afin de générer des structures à partir du texte. Notre pré-entraînement structuré permet un transfert zéro-shot des connaissances apprises par les modèles concernant les tâches structurelles. Nous étudions les performances de cette approche sur 28 jeux de données, couvrant 10 tâches de prédiction structurelle, notamment l'extraction d'information ouverte, l'extraction conjointe d'entités et de relations, la reconnaissance d'entités nommées, la classification de relations, l'étiquetage des rôles sémantiques, l'extraction d'événements, la résolution de co-référence, le test factuel (factual probe), la détection d'intention et le suivi d'état du dialogue. Nous renforçons davantage le pré-entraînement en utilisant des ensembles d'apprentissage spécifiques à chaque tâche. Nous montrons qu'un modèle de langage doté de 10 milliards de paramètres se transfère non trivialement vers la plupart des tâches et obtient des performances inédites sur 21 des 28 jeux de données que nous évaluons.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
DeepStruct : Préformation des modèles de langage pour la prédiction de structure | Articles | HyperAI