HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 mois

Les Modèles de Langage sont des Apprenants Multitâches Non Supervisés

{Jeffrey Wu Rewon Child Ilya Sutskever David Luan Alec Radford Dario Amodei}

Résumé

Les tâches de traitement du langage naturel, telles que la réponse aux questions, la traduction automatique, la compréhension de lecture et la synthèse, sont généralement abordées à l’aide d’un apprentissage supervisé sur des jeux de données spécifiques aux tâches. Nous démontrons que les modèles de langage commencent à apprendre ces tâches sans aucune supervision explicite lorsqu’ils sont entraînés sur un nouveau jeu de données composé de millions de pages web, appelé WebText. Lorsqu’ils sont conditionnés par un document accompagné de questions, les réponses générées par le modèle atteignent un score F1 de 55 sur le jeu de données CoQA — un résultat équivalent ou supérieur à celui de 3 des 4 systèmes de référence, sans avoir utilisé les 127 000 exemples d’entraînement. La capacité du modèle de langage est essentielle au succès du transfert de tâche en zéro-shot, et son augmentation améliore les performances de manière logarithmiquement linéaire à travers les tâches. Notre modèle le plus grand, GPT-2, est un Transformer de 1,5 milliard de paramètres qui atteint des résultats de pointe sur 7 des 8 jeux de données d’analyse de langage testés dans un cadre zéro-shot, bien qu’il sous-apprenne encore WebText. Les échantillons générés par le modèle reflètent ces progrès et contiennent des paragraphes de texte cohérents. Ces résultats suggèrent une voie prometteuse vers la construction de systèmes de traitement du langage capables d’apprendre à accomplir des tâches à partir de leurs propres exemples naturels.

Benchmarks

BenchmarkMéthodologieMétriques
coreference-resolution-on-winograd-schemaGPT-2-XL 1.5B
Accuracy: 70.7
dialogue-state-tracking-on-simmc2-0GPT-2
Act F1: 94.5
Slot F1: 81.7
document-summarization-on-cnn-daily-mailGPT-2
ROUGE-1: 29.34
ROUGE-2: 8.27
ROUGE-L: 26.58
language-modelling-on-enwiki8GPT-2 (48 layers, h=1600)
Bit per Character (BPC): 0.93
Number of params: 1542M
language-modelling-on-lambadaGPT-2 1.5B (Zero Shot)
Accuracy: 63.24
Perplexity: 8.63
language-modelling-on-one-billion-wordGPT-2
Number of params: 1.54B
PPL: 42.16
language-modelling-on-penn-treebank-wordGPT-2
Params: 1542M
Test perplexity: 35.76
language-modelling-on-text8GPT-2
Bit per Character (BPC): 0.98
Number of params: 1542M
language-modelling-on-wikitext-103GPT-2 Large
Number of params: 774M
Test perplexity: 22.05
language-modelling-on-wikitext-103GPT-2 Small
Number of params: 124M
Test perplexity: 37.50
language-modelling-on-wikitext-103GPT-2 Full
Number of params: 1542M
Test perplexity: 17.48
language-modelling-on-wikitext-103GPT-2 Medium
Number of params: 355M
Test perplexity: 26.37
language-modelling-on-wikitext-2GPT-2 (medium)
Number of params: 345M
Test perplexity: 22.76
language-modelling-on-wikitext-2GPT-2 (large)
Number of params: 762M
Test perplexity: 19.93
language-modelling-on-wikitext-2GPT-2
Number of params: 1542M
Test perplexity: 18.34
language-modelling-on-wikitext-2GPT-2 (small)
Number of params: 117M
Test perplexity: 29.41
question-answering-on-feverZero-shot
EM: 50
question-answering-on-webquestionsZero-shot
EM: 43
response-generation-on-simmc2-0GPT-2
BLEU: 19.2
sentiment-analysis-on-imdbGPT-2 Finetuned
Accuracy: 92.36
text-generation-on-openwebtextGPT2-124M
eval_loss: 3.12

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Les Modèles de Langage sont des Apprenants Multitâches Non Supervisés | Articles de recherche | HyperAI