HyperAI

En 2023, le grand modèle linguistique est toujours un « faiseur de sujets », qu'il soit OpenAI Qu'il s'agisse du « drame de combat de palais » des grandes entreprises, de la « bataille des dieux » entre les nouveaux modèles et les nouveaux produits des grands fabricants, ou du développement fulgurant des grands modèles dans l'industrie, tout cela indique que les grands modèles linguistiques ont une énorme marge de développement. Le parfum des fleurs attire les papillons. ChatGPT Après être devenus une sensation du jour au lendemain, nous entendons souvent parler de gros bonnets de tous horizons qui rejoignent le jeu, et de start-ups avec des financements ou des formations techniques différents qui ont poussé comme des champignons après la pluie.

De toute évidence, une scène aussi animée ne se refroidira pas facilement en 2024. De plus en plus d’entreprises et d’industries traditionnelles commencent à explorer comment appliquer de grands modèles linguistiques à leurs propres activités. La demande croissante du marché a également entraîné un approfondissement et une innovation supplémentaires dans la recherche dans des domaines connexes, et les mises à jour d'articles sur des plateformes telles qu'arXiv sont devenues plus fréquentes.

Parmi eux, quels articles méritent d’être lus ? Quels points de connaissance se cachent derrière les titres d’essais complexes ?

Afin de vous aider à récupérer plus rapidement les documents de grande valeur,L'ingénieur d'Amazon Eugene Yan et d'autres ont établi une liste de lecture d'articles sur les modèles de langage et continuent de partager des articles de pointe. Ils ont actuellement compilé plus de 40 articles de haute qualité.

Lien de la collection :

https://eugeneyan.com/writing/llm-reading-list/

Suivez le compte officiel et répondez « LLM Papers » pour télécharger la collection de documents.

Papier pionnier sur les transformateurs

L'attention est tout ce dont vous avez besoin

*auteur:Illia Polosukhin, cofondatrice de NEAR (ancienne membre de l'équipe Google AI) et d'autres

*original:https://arxiv.org/abs/1706.03762

Les principaux modèles de transduction de séquences sont basés sur des configurations encodeur-décodeur de réseaux neuronaux complexes récurrents ou convolutifs. Les modèles hautes performances connectent également l'encodeur et le décodeur via un mécanisme d'attention. Cette étude a proposé une nouvelle architecture de réseau simple - Transformer, qui est entièrement basée sur le mécanisme d'attention et élimine complètement le processus de configuration du réseau neuronal récursif et convolutif. Des expériences sur deux tâches de traduction automatique montrent que ces modèles ont une qualité améliorée, sont plus parallélisables et nécessitent beaucoup moins de temps de formation.

GPT : Améliorer la compréhension du langage grâce à la préformation générative

Améliorer la compréhension du langage grâce à une préformation générative

*auteur:OpenAI

*original:https://cdn.openai.com/research-covers/language-document_non_supervisé/compréhension_du_langage.pdf

La compréhension du langage naturel couvre un large éventail de tâches, telles que l’association de textes, la réponse aux questions et l’évaluation de la similarité sémantique. Bien que de grands corpus de textes non étiquetés soient disponibles, les données étiquetées pour l'apprentissage de ces tâches spécifiques sont limitées, ce qui rend difficile pour les modèles formés de manière discriminante de fonctionner correctement. En réponse à cela, Ilya a conduit les chercheurs d'OpenAI à proposer que ce phénomène puisse être amélioré en pré-entraînant le modèle de langage sur un corpus de texte riche et non étiqueté et en effectuant un réglage fin différentiel sur chaque tâche spécifique. Les chercheurs ont utilisé des transformations d’entrée sensibles aux tâches pendant le processus de réglage fin, ce qui a nécessité moins d’ajustements à l’architecture du modèle tout en permettant un apprentissage par transfert efficace.

Les résultats expérimentaux comparatifs sur les tâches générales montrent que le modèle a obtenu une amélioration des performances de 8,9% dans le raisonnement de bon sens (Stories Cloze Test), de 5,7% dans la réponse aux questions (RACE) et de 1,5% dans l'association de textes (MultiNLI).

BERT : Pré-entraînement des transformateurs bidirectionnels profonds pour la compréhension du langage

BERT : Pré-formation des transformateurs bidirectionnels profonds pour la compréhension du langage

*auteur:Google DeepMind

*original:https://arxiv.org/abs/1810.04805

Les chercheurs ont proposé un nouveau modèle de représentation du langage, BERT (Bidirectional Encoder Representations from Transformers), qui pré-entraîne des représentations bidirectionnelles profondes en prenant en compte le contexte dans toutes les couches. Par conséquent, les modèles BERT pré-entraînés peuvent être affinés en ajoutant simplement une couche de sortie, créant ainsi des modèles de pointe pour plusieurs tâches telles que la réponse aux questions et le raisonnement linguistique sans nécessiter de modifications d'architecture importantes et spécifiques à la tâche.

BERT a réalisé des améliorations significatives dans 11 tâches de traitement du langage naturel, notamment en augmentant le score GLUE à 80,5% (une amélioration relative de 7,7%), la précision MultiNLI à 86,7% (une amélioration relative de 4,6%), le test de réponse aux questions SQuAD v1.1 F1 à 93,2 (une amélioration relative de 1,5%) et le test SQuAD v2.0 F1 à 83,1 (une amélioration relative de 5,1%).

T5 : Explorer les limites de l'apprentissage par transfert avec un transformateur texte-texte unifié

Explorer les limites de l'apprentissage par transfert avec un transformateur texte-texte unifié

*auteur:Google DeepMind

*original:https://arxiv.org/abs/1910.10683

Les chercheurs ont exploré plus en détail les techniques d’apprentissage par transfert pour le PNL en introduisant un cadre unifié qui convertit tous les problèmes de langage basés sur du texte en un format texte à texte. L’étude a comparé les objectifs de pré-formation, les architectures, les ensembles de données non étiquetés, les méthodes de transfert et d’autres facteurs sur des dizaines de tâches de compréhension du langage. En combinant des résultats comparatifs et expérimentaux avec le nouveau corpus colossal clean crawled proposé par l’équipe, cette étude a obtenu des résultats de pointe dans plusieurs critères de référence tels que le résumé, la réponse aux questions et la classification de texte.

GPT2 : Le modèle de langage est un apprenant multitâche non supervisé

Les modèles linguistiques sont des apprenants multitâches non supervisés

*auteur:OpenAI

*original:https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

La recherche démontre que les modèles linguistiques peuvent apprendre des tâches de traitement du langage naturel sans supervision explicite lorsqu'ils sont formés sur un nouvel ensemble de données, WebText, composé de millions de pages Web. Lorsque la condition document + question est donnée, la réponse générée par le modèle de langage est CoQA Un score F1 de 55 est obtenu sur l'ensemble de données, correspondant ou dépassant 3 des 4 systèmes de base tout en ne nécessitant pas plus de 127 000 exemples de formation. GPT-2 est un transformateur avec 1,5 milliard de paramètres. Dans le cadre du zero-shot, il a obtenu les meilleures performances dans 7 des 8 ensembles de données de modélisation linguistique testés, mais il n'est toujours pas entièrement adapté à WebText.

GPT-3 : Les modèles linguistiques sont des apprenants à faible intensité

Les modèles linguistiques sont des apprenants peu nombreux

*auteur:Dario Amodei, fondateur d'Anthropic, Ilya Sutskever, cofondateur d'OpenAI, et d'autres

*original:https://arxiv.org/abs/2005.14165

Les chercheurs ont formé un modèle de langage autorégressif, GPT-3, et ont testé ses performances sur une poignée de scénarios. Dans toutes les tâches, GPT-3 n'effectue aucune mise à jour de gradient ni aucun réglage fin, et les tâches et les démonstrations en quelques prises sont réalisées uniquement par le biais d'interactions textuelles avec le modèle. GPT-3 obtient de bonnes performances sur la plupart des ensembles de données NLP, y compris la traduction, la réponse aux questions et certaines tâches qui nécessitent un raisonnement à la volée ou une adaptation de domaine, comme le démêlage de mots, l'utilisation de nouveaux mots dans des phrases ou l'exécution d'arithmétique à trois chiffres. De plus, les chercheurs ont découvert que GPT-3 peut générer des articles d’actualité difficiles à distinguer pour les humains.

Lois d'échelle pour les modèles de langage neuronal : formation de modèles plus grands sur des ensembles de données plus petits

Lois d'échelle pour les modèles de langage neuronal

*auteur:Le fondateur d'Anthropic, Dario Amodei, et les chercheurs d'OpenAI

*original:https://arxiv.org/abs/2001.08361

Les chercheurs ont étudié l’échelle des performances du modèle linguistique sur la perte d’entropie croisée. La perte évolue selon la loi de puissance avec la taille du modèle, la taille de l'ensemble de données et la quantité de calcul utilisée pour la formation, avec certaines tendances d'échelle dépassant 7 ordres de grandeur. La dépendance du surajustement sur la taille du modèle/ensemble de données et la dépendance de la vitesse d'entraînement sur la taille du modèle sont toutes deux déterminées par des équations simples. Sur cette base, les chercheurs suggèrent que plus le modèle est grand, plus il est efficace en termes d'échantillons. Par conséquent, l'entraînement pour une efficacité de calcul optimale nécessite d'entraîner des modèles plus grands sur des quantités de données relativement petites et de s'arrêter brutalement avant la convergence.

Chinchilla : Entraîner de grands modèles linguistiques avec une efficacité de calcul optimale

Formation de modèles de langage volumineux optimisés en calcul

*auteur:Google DeepMind

*original:https://arxiv.org/abs/2203.15556

Les chercheurs ont proposé que la taille du modèle et le nombre de jetons d'entraînement devraient augmenter proportionnellement, et ont vérifié cette hypothèse en entraînant un modèle informatiquement efficace prédit, Chinchilla. Chinchilla utilise la même puissance de calcul que Gopher, mais avec une taille de paramètre de 7 milliards et 4 fois la quantité de données. Chinchilla surpasse considérablement Gopher (280B), GPT-3 (175B), Jurassic-1 (178B) et Megatron-Turing NLG (530B) sur diverses tâches d'évaluation en aval. Cela signifie également que Chinchilla utilise beaucoup moins de ressources informatiques lors du réglage fin et de l'inférence, ce qui facilite grandement les applications en aval.

LLaMA : Un modèle de langage de base ouvert et efficace

LLaMA : Modèles de langage de base ouverts et efficaces

*auteur：Guillaume Lample, co-fondateur de Mistral AI (anciennement chez Meta AI) et autres

*original：https://arxiv.org/abs/2302.13971

LLaMA est une collection de modèles de langage de base avec des paramètres allant de 7B à 65B. Les chercheurs de Meta AI ont formé le modèle sur des milliards de jetons, en utilisant uniquement des ensembles de données accessibles au public et non des ensembles de données propriétaires et inaccessibles. LLaMA-13B surpasse GPT-3 (175B) sur la plupart des benchmarks, tandis que LLaMA-65B est comparable à Chinchilla-70B et PaLM-540B.

InstructGPT : former un modèle de langage à suivre des instructions via un retour humain

Entraîner des modèles linguistiques à suivre des instructions avec un retour humain

*auteur:OpenAI

*original:https://arxiv.org/abs/2203.02155

Les chercheurs ont démontré que les modèles linguistiques peuvent être alignés sur l’intention de l’utilisateur en étant affinés avec les commentaires humains sur une variété de tâches. Les chercheurs ont appelé le modèle résultant InstructGPT, et dans une évaluation de la distribution rapide, les sorties du modèle InstructGPT 1,3B ont été favorisées par rapport aux sorties du modèle GPT-3 175B. De plus, InstructGPT a également été amélioré en termes de réalisme et de réduction des émissions toxiques.

LoRA:Adaptation de bas rang de grands modèles de langage

LoRA : adaptation de bas rang de grands modèles de langage

*auteur:Microsoft

*original:https://arxiv.org/abs/2106.09685

Les chercheurs de Microsoft ont proposé LoRA (Low-Rank Adaptation), qui gèle les poids du modèle pré-entraîné et injecte une matrice de décomposition de rang entraînable dans chaque couche de l'architecture Transformer, réduisant considérablement le nombre de paramètres entraînables pour les tâches en aval. Par rapport au GPT-3 175B optimisé avec Adam, LoRA peut réduire le nombre de paramètres pouvant être formés de 10 000 fois et les besoins en mémoire GPU de 3 fois.

QLoRA : Ajustement efficace des modèles quantifiés de langage volumineux

QLoRA : réglage fin efficace des LLM quantifiés

*auteur:Des chercheurs de l'Université de Washington

*original:https://arxiv.org/abs/2305.14314

QLoRA est une méthode de réglage fin efficace qui peut réduire l'utilisation de la mémoire et affiner un modèle de paramètres de 65 B sur un seul GPU de 48 Go tout en maintenant des performances complètes de tâche de réglage fin de 16 bits. QLoRA passe par un modèle de langage pré-entraîné quantifié de 4 bits gelé et rétropropage les gradients vers LoRA. Les chercheurs ont nommé le modèle le plus performant basé sur QLoRA Guanaco, qui a surpassé tous les modèles précédemment publiés publiquement dans le benchmark Vicuna, atteignant le niveau de performance de ChatGPT 99.3%, tout en ne nécessitant que 24 heures de réglage fin sur un seul GPU.

DPR : Récupération de passages denses pour la réponse aux questions de domaine ouvert

Récupération de passages denses pour répondre à des questions en domaine ouvert

*auteur:FAIR à Meta

*original:https://arxiv.org/abs/2004.04906

Dans ce travail, les chercheurs ont montré comment réaliser une récupération en utilisant uniquement des représentations denses, à savoir l'apprentissage d'intégrations à partir d'un petit nombre de questions et de paragraphes via un cadre simple à double encodeur. Lorsqu'il est évalué sur un vaste ensemble de données de réponses à des questions à domaine ouvert, le récupérateur obtient une amélioration de 9%-19% par rapport à Lucene-BM25 dans la précision de récupération des 20 premiers paragraphes.

RAG : Génération augmentée par récupération pour les tâches de PNL à forte intensité de connaissances

Génération augmentée par récupération pour les tâches de PNL à forte intensité de connaissances

*auteur:Des chercheurs de Meta, de l'UCL et de l'University College London

*original:https://arxiv.org/abs/2005.11401

Les chercheurs ont proposé une méthode générale de réglage fin RAG (génération augmentée par récupération), qui combine des paramètres pré-entraînés et des non-paramètres pour la génération de langage. Cette étude présente le modèle RAG, où la mémoire des paramètres est un modèle seq2seq pré-entraîné et la mémoire non paramétrique est l'index vectoriel dense (DPR) de Wikipédia, accessible via un récupérateur neuronal pré-entraîné. Les chercheurs ont comparé deux schémas RAG, l'un conditionné par le même paragraphe récupéré tout au long de la séquence générée et l'autre conditionné par un paragraphe différent pour chaque jeton. Dans la tâche de génération de langage, les chercheurs ont constaté que le langage généré par le modèle RAG était plus spécifique, diversifié et réaliste que le langage généré par le modèle de base seq2seq purement paramétrique de pointe.

RETRO : Améliorer les performances du modèle de langage en récupérant des milliards de jetons

Améliorer les modèles de langage en récupérant des milliards de jetons

*auteur:Google DeepMind

*original:https://arxiv.org/abs/2112.04426

Retrieval-Enhanced Transformer (RETRO), avec une base de données étiquetée de 2 000 milliards, atteint des performances comparables sur Pile malgré l'utilisation de 25 fois moins de paramètres que GPT-3 et Jurassic-1. RETRO combine un récupérateur BERT gelé, un encodeur différentiable et un mécanisme d'attention croisée par bloc pour prédire les balises en fonction d'un ordre de grandeur de données supérieur à celui consommé pendant la formation.

Créer des modèles de langage améliorés par Internet avec quelques conseils pour répondre à des questions ouvertes

Modèles de langage augmentés par Internet grâce à des invites à quelques coups pour répondre à des questions de domaine ouvert

*auteur:Google DeepMind

*original:https://arxiv.org/abs/2203.05115

Cette étude vise à exploiter la capacité unique des modèles linguistiques à grande échelle (LSLM) à formuler des petites invites pour surmonter les défis auxquels ils sont confrontés en matière de facto et de mise à jour. Les chercheurs ont découvert que les modèles de langage basés sur le réseau surpassent les modèles à livre fermé de taille similaire ou supérieure dans la réponse aux questions en domaine ouvert. De plus, en générant plusieurs réponses à l'aide de plusieurs preuves de récupération, puis en les reclassant à l'aide des scores générés par les mêmes LM, le temps de calcul d'inférence du modèle peut être amélioré, améliorant ainsi les performances et atténuant le problème de faible performance d'un petit nombre de LM.

HyDE : récupération dense sans étiquettes de pertinence

Récupération dense précise à zéro coup sans étiquettes de pertinence

*auteur:Des chercheurs de l'Université Carnegie Mellon et de l'Université de Waterloo

*original:https://arxiv.org/abs/2212.10496

Dans cette expérience, HyDE (Hypothetical Document Embeddings) guide d'abord un modèle de langage suivant les instructions (par exemple, InstructGPT) pour générer un document hypothétique de manière zéro coup. Ce document capture des modèles de corrélation mais est fictif et peut contenir de faux détails. Ensuite, un encodeur avec apprentissage contrastif non supervisé (par exemple, Contriever) encode les documents dans des vecteurs d'intégration. Ce vecteur identifie un voisinage dans l'espace d'intégration du corpus où des documents réels similaires sont récupérés en fonction de la similarité des vecteurs. Les expériences démontrent que HyDE surpasse considérablement le récupérateur dense non supervisé de pointe Contriever dans une variété de tâches et de langages, et présente de solides performances comparables à celles des récupérateurs affinés.

FlashAttention : algorithme d'attention précise avec IO-Awareness

FlashAttention : attention précise rapide et efficace en termes de mémoire avec IO-Awareness

*auteur:Des chercheurs de l'Université de Stanford et de l'Université d'État de New York

*original:https://arxiv.org/abs/2205.14135

FlashAttention est un algorithme d'attention précise prenant en compte les E/S qui utilise le pavage pour réduire le nombre de lectures et d'écritures de mémoire entre la mémoire à bande passante élevée (HBM) du GPU et la SRAM sur puce du GPU. FlashAttention et Block-Sparse FlashAttention permettent des contextes plus longs dans Transformers, ce qui donne lieu à des modèles de meilleure qualité et à des fonctionnalités innovantes.

Attention biais linéaire pour obtenir une extrapolation de la longueur d'entrée

Entraînez-vous rapidement, testez longtemps : l'attention avec des biais linéaires permet l'extrapolation de la longueur d'entrée

*auteur:Des équipes de recherche de l'Université de Washington, de FAIR, etc.

*original:https://arxiv.org/abs/2108.12409

Les chercheurs ont proposé une méthode de représentation de position plus simple et plus efficace - ALiBi (Attention with Linear Biases), qui peut entraîner un modèle de 1,3 milliard de paramètres sur une séquence d'entrée de longueur 1024 et peut déduire une séquence d'entrée de longueur 2048. Il atteint les mêmes performances que le modèle d'intégration de position sinusoïdale entraîné sur une séquence d'entrée de longueur 2048, mais est 11% plus rapide à l'entraînement et utilise 11% moins de mémoire.

Codex : Évaluation de grands modèles de langage formés sur du code

Évaluation de grands modèles de langage formés sur du code

*auteur:OpenAI

*original:https://arxiv.org/abs/2107.03374

Les chercheurs ont présenté le modèle de langage GPT Codex, qui a été affiné sur la base du code public GitHub, et ont étudié ses capacités d'écriture de code Python. Dans le même temps, les chercheurs ont également publié un nouvel ensemble d’évaluation, HumanEval, qui permet de mesurer l’exactitude fonctionnelle des programmes synthétisés à partir de scripts de documents. Sur cet ensemble d'évaluation, Codex a résolu 28,8% problèmes, tandis que GPT-3 a résolu 0% et GPT-J a résolu 11,4%.

Normalisation des couches

Normalisation des couches

*auteur:Des chercheurs de l'Université de Toronto

*original:https://arxiv.org/abs/1607.06450

Les chercheurs ont converti la normalisation par lots en normalisation par couches, c'est-à-dire que dans un seul échantillon d'entraînement, la normalisation est obtenue en calculant la moyenne et la variance de la somme de toutes les entrées des neurones de la couche. Contrairement à la normalisation par lots, la normalisation par couches effectue exactement le même calcul au moment de la formation et du test. Nous démontrons empiriquement que la normalisation des couches peut réduire considérablement le temps de formation par rapport aux techniques publiées précédemment.

Normalisation des couches dans l'architecture Transformer

Sur la normalisation des couches dans l'architecture Transformer

*auteur:Microsoft

*original:https://arxiv.org/abs/2002.04745

Les chercheurs ont utilisé la théorie du champ moyen pour prouver que dans la phase d'initialisation, pour le transformateur post-LN conçu à l'origine, le gradient attendu des paramètres près de la couche de sortie est important, et l'utilisation d'un taux d'apprentissage élevé basé sur cela rendra la formation instable. De plus, si la normalisation des couches est placée dans Post-LN Transformer, les gradients se comportent bien à l'initialisation. Des études ont montré que la transformation Pre-LN avec la phase de préchauffage supprimée peut obtenir des résultats comparables à la ligne de base dans les applications pratiques tout en réduisant le temps de formation et le réglage des hyperparamètres.

PPO : algorithme d'optimisation des politiques proximales

Algorithmes d'optimisation des politiques proximales

*auteur:OpenAI

*original:https://arxiv.org/abs/1707.06347

L'optimisation de la politique proximale (PPO) proposée par les chercheurs présente des avantages similaires à l'optimisation de la politique de la région de rouille (TRPO), mais est plus simple, plus générale et présente une meilleure complexité d'échantillon. Les chercheurs ont testé PPO sur une gamme de tâches de référence et ont montré que PPO surpasse les autres méthodes de gradient de politique en ligne et atteint généralement un bon équilibre entre la complexité de l'échantillon, la simplicité et le temps passé.

WizardCoder:Utilisation d'Evol-Instruct pour améliorer la capacité de coder de grands modèles de langage

WizardCoder : Optimiser les modèles de langage de code volumineux avec Evol-Instruct

*auteur:Des chercheurs de Microsoft et de l'Université baptiste de Hong Kong

*original:https://arxiv.org/abs/2306.08568

Le WizardCoder proposé par les chercheurs permet à Code LLM d'avoir la capacité d'affiner des instructions complexes en ajustant la méthode Evol-Instruct au domaine du code. Des expériences sur quatre benchmarks de génération de code, HumanEval, HumanEval+, MBPP et DS-1000, montrent que WizardCoder surpasse considérablement tous les autres LLM de code open source. De plus, sur HumanEval et HumanEval+, WizardCoder surpasse même Claude d'Anthropic et Bard de Google.

Llama 2 : modèles de chat open source et optimisés

Llama 2 : Fondation ouverte et modèles de chat optimisés

*auteur:GenAI, Méta

*original:https://arxiv.org/abs/2307.09288

Llama 2 est une collection de grands modèles de langage pré-entraînés et affinés, dont la taille varie de 7 à 70 milliards de paramètres. Le LLM perfectionné des chercheurs, appelé Llama 2-Chat, est optimisé pour les applications conversationnelles. L’article détaille comment les chercheurs ont affiné et amélioré la sécurité de Llama 2-Chat.

RWKV : Redéfinir les RNN pour l'ère des transformateurs

RWKV : Réinventer les RNN pour l'ère des transformateurs

*auteur:EleutherAI, Université de Barcelone et autres équipes de recherche

*original:https://arxiv.org/abs/2305.13048

Les chercheurs ont proposé une nouvelle architecture de modèle appelée Receptance Weighted Key Value (RWKV), qui combine l'entraînement parallèle efficace de Transformer et l'inférence efficace de RNN. Cette méthode utilise le mécanisme d'attention linéaire et peut formuler le modèle sous forme de transformateur ou de RNN, parallélisant ainsi le calcul pendant la formation et maintenant une complexité de calcul et de mémoire constante pendant l'inférence. Les chercheurs ont étendu le modèle à 14 milliards de paramètres, ce qui en fait le plus grand modèle RNN dense à ce jour.

RLAIF : retour d'information inoffensif de l'IA

IA constitutionnelle : l'innocuité des retours de l'IA

*auteur:Anthropique

*original:https://arxiv.org/abs/2212.08073

Les chercheurs tentent de former un assistant IA grâce à l’auto-amélioration, une approche qu’ils appellent IA constitutionnelle. Le processus de formation comprend deux étapes : l’apprentissage supervisé et l’apprentissage par renforcement. Dans la phase d’apprentissage supervisé, les chercheurs ont échantillonné le modèle initial, puis ont généré des autocritiques et des révisions, et ont finalement affiné le modèle original sur les réponses révisées.

Au cours de la phase d'apprentissage par renforcement, les chercheurs échantillonnent le modèle affiné, utilisent le modèle pour évaluer lequel des deux échantillons est le meilleur, puis entraînent le modèle de préférence à partir de l'ensemble de données préféré de l'IA. Les chercheurs ont ensuite utilisé le modèle de préférence comme signal de récompense pour la formation RL, en utilisant RLAIF (RLAIF).

Réseaux neuronaux à très grande échelle

Réseaux neuronaux extrêmement vastes : la couche mixte d'experts à portes clairsemées

*auteur:Google Brain (fusionné avec DeepMind)

*original:https://arxiv.org/abs/1701.06538

Les chercheurs ont introduit un MoE (mélange d'experts) peu structuré, composé de milliers de sous-réseaux à rétroaction, et ont appliqué le MoE à la modélisation du langage et aux tâches de traduction automatique. Dans ces tâches, la capacité du modèle est cruciale pour assimiler la grande quantité de connaissances contenues dans le corpus de formation. Les chercheurs ont proposé une architecture de modèle dans laquelle le MoE avec jusqu'à 137 milliards de paramètres est appliqué de manière convolutionnelle entre des couches LSTM empilées. Sur les grands benchmarks de modélisation linguistique et de traduction automatique, le modèle surpasse considérablement l'état de l'art à un coût de calcul inférieur.

CLIP : Apprentissage de modèles de vision transférables à partir de la supervision en langage naturel

Apprentissage de modèles visuels transférables à partir de la supervision du langage naturel

*auteur:OpenAI

*original:https://arxiv.org/abs/2103.00020

Nous proposons une tâche de pré-formation consistant à prédire quelle légende correspond à quelle image, comme moyen efficace et évolutif d'apprendre des représentations d'images de pointe à partir de zéro. L’étude a utilisé un ensemble de données de 400 millions de paires d’images et de textes collectées sur Internet. Après la pré-formation, le langage naturel est utilisé pour référencer les concepts visuels appris (ou décrire de nouveaux concepts), permettant un transfert sans interruption des modèles vers les tâches en aval.

ViT : Transformateur pour la reconnaissance d'images à grande échelle

Une image vaut 16×16 mots : Transformateurs pour la reconnaissance d'images à grande échelle

*auteur:Google Research, Brain Team (fusionné avec DeepMind)

*original:https://arxiv.org/abs/2010.11929

L’application d’opérations de convolution s’accompagne généralement de limitations des structures globales et de dépendances à longue portée, nécessitant ainsi davantage de paramètres et de réseaux plus profonds pour résoudre ces problèmes. Les chercheurs ont proposé un modèle de reconnaissance d'images entièrement basé sur Transformer, appelé ViT (Vision Transformer), qui adopte l'idée de base de Transformer et peut capturer des informations globales.

Agents génératifs : simulation interactive du comportement humain

Agents génératifs : simulacres interactifs du comportement humain

*auteur:Université de Stanford, chercheurs de Google DeepMind

*original:https://arxiv.org/abs/2304.03442

Pour construire des agents génératifs, les chercheurs ont proposé une architecture qui étend un grand modèle de langage pour stocker l'enregistrement complet de l'expérience de l'agent en utilisant le langage naturel, synthétise progressivement ces souvenirs en réflexions de niveau supérieur et les récupère dynamiquement pour planifier le comportement. Cette étude a introduit l’architecture et les modèles d’interaction en intégrant de grands modèles de langage avec des agents informatiques et interactifs, et a permis de simuler un comportement humain crédible.

DPO : algorithme d'optimisation des préférences directes

Optimisation des préférences directes : votre modèle linguistique est secrètement un modèle de récompense

*auteur:Des chercheurs de l'Université de Stanford

*original:https://arxiv.org/abs/2305.18290

L'algorithme d'optimisation des préférences directes (DPO) proposé par les chercheurs est stable, efficace et léger en termes de calcul, sans qu'il soit nécessaire d'adapter un modèle de récompense, d'échantillonner le LM lors du réglage fin ou d'effectuer des ajustements d'hyperparamètres importants. Des expériences montrent que le DPO peut ajuster avec précision les LM pour qu’ils soient cohérents avec les préférences humaines. Des expériences montrent que le réglage fin utilisant DPO surpasse le RLHF (apprentissage par renforcement à partir du feedback humain) dans le contrôle de l’émotion générée.

Modèle de cohérence

Modèles de cohérence

*auteur:OpenAI

*original:https://arxiv.org/abs/2303.01469

Le modèle de cohérence proposé dans cette étude est un nouveau modèle qui génère des échantillons de haute qualité en mappant directement le bruit sur les données. Il prend en charge la génération rapide en une étape et peut également utiliser l'échantillonnage en plusieurs étapes pour équilibrer le calcul et la qualité de l'échantillon. Le modèle permet également l'édition de données sans prise de vue, comme l'inpainting d'images, la colorisation et la super-résolution, sans nécessiter de formation explicite sur ces tâches.

Modèle de cohérence potentielle

Modèles de cohérence latente : synthèse d'images haute résolution avec inférence en quelques étapes

*auteur:Des chercheurs de l'Université Tsinghua

*original:https://arxiv.org/abs/2310.04378

Les chercheurs ont proposé des modèles de cohérence latente (LCM), qui peuvent effectuer une inférence rapide en un minimum d'étapes sur n'importe quel modèle de diffusion latente pré-entraîné (LDM), y compris la diffusion stable (Rombach et al.). Les résultats expérimentaux montrent qu'en extrayant efficacement à partir d'un modèle de diffusion guidée sans classificateur pré-entraîné, un LCM 2~4 étapes de haute qualité de 768 x 768 ne nécessite que 32 heures d'entraînement sur un GPU A100.

LCM-LoRA : module universel d'accélération de diffusion stable

LCM-LoRA : un module universel d'accélération à diffusion stable

*auteur:Université Tsinghua, Visage étreint

*original:https://arxiv.org/abs/2311.05556

Cette étude élargit encore le potentiel des LCM. Tout d’abord, en appliquant LoRA aux modèles de diffusion stable, notamment SD-V1.5, SSD-1B et SDXL, les chercheurs ont étendu la portée du LCM à de grands modèles avec une consommation de mémoire moindre et ont obtenu une qualité de génération d’image supérieure. Deuxièmement, les chercheurs ont identifié les paramètres LoRA obtenus par distillation LCM comme un module général d’accélération de diffusion stable et l’ont nommé LCM-LoRA. LCM-LoRA peut être directement connecté à divers modèles de diffusion stable ou LoRA affinés sans nécessiter de formation, représentant ainsi un accélérateur général pour diverses tâches de génération d'images.

Chaîne de notes : améliorer la robustesse des modèles de langage optimisés par la recherche

Chaîne de notes : amélioration de la robustesse des modèles de langage à récupération augmentée

*auteur:Laboratoire d'IA de Tencent

*original:https://arxiv.org/abs/2311.09210

La chaîne de notation (CoN) proposée par les chercheurs peut améliorer la robustesse du modèle de langage amélioré de récupération (RALM) face à des documents bruyants et non pertinents et dans la gestion de scénarios inconnus. CoN est capable de générer des annotations de lecture séquentielles pour les documents récupérés afin d'évaluer en profondeur leur pertinence par rapport à une question donnée et d'intégrer ces informations dans le processus de formulation de la réponse finale.

Capacités émergentes des grands modèles linguistiques

Capacités émergentes des grands modèles linguistiques

*auteur:Recherche Google, Université de Stanford, UNC, DeepMind

*original:https://arxiv.org/abs/2206.07682

Les chercheurs ont proposé des capacités émergentes des grands modèles de langage, les définissant comme des capacités absentes dans les modèles plus petits mais présentes dans les grands modèles, mesurées par la quantité de calculs d'entraînement et le nombre de paramètres du modèle.

Q-Transformer : Apprentissage par renforcement hors ligne évolutif via des fonctions Q autorégressives

Q-Transformer : Apprentissage par renforcement hors ligne évolutif via des fonctions Q autorégressives

*auteur:Google DeepMind

*original:https://arxiv.org/abs/2309.10150

Les chercheurs ont proposé une méthode d’apprentissage par renforcement évolutive, Q-Transformer, pour former des politiques multitâches qui peuvent exploiter à la fois des démonstrations humaines et des données collectées de manière autonome à partir d’ensembles de données hors ligne à grande échelle. La méthode utilise Transformer pour fournir une représentation évolutive de la fonction Q et est formée via une sauvegarde hors ligne de différence de temps.

Garde lama

Llama Guard : protection des entrées-sorties basée sur LLM pour les conversations homme-IA

*auteur:Méta GenAI

*original:https://arxiv.org/abs/2312.06674

Llama Guard est un modèle de protection d'entrée et de sortie basé sur LLM qui est affiné sur la base du modèle Llama2-7b sur l'ensemble de données collecté par Meta. Malgré la petite quantité de données, il fonctionne bien dans les benchmarks existants tels que l'ensemble de données OpenAI Moderation Evaluation et ToxicChat, et ses performances correspondent ou surpassent celles des outils d'examen de contenu actuellement disponibles.

ReSTEM : au-delà des données humaines

Au-delà des données humaines : Adaptation de l'autoformation à la résolution de problèmes avec des modèles linguistiques

*auteur:Google DeepMind, Mila

*original:https://arxiv.org/abs/2312.06585

Les chercheurs ont proposé une méthode d’autoformation basée sur la maximisation des attentes, appelée ReSTEM, qui génère des échantillons à partir du modèle et les filtre à l’aide d’une rétroaction binaire, puis affine ces échantillons et répète le processus plusieurs fois. Lors de l'utilisation du modèle PaLM-2 sur les tests d'inférence MATH et d'encodage APPS, les chercheurs ont constaté que les performances de ReSTEM évoluaient avec la taille du modèle et surpassaient considérablement les méthodes de réglage fin sur les données humaines.

Modèles d'experts mixtes

*source:Visage qui fait un câlin

*original:https://huggingface.co/blog/moe

SPIN : L'auto-réglage du jeu transforme les modèles de langage faibles en modèles de langage forts

Le réglage fin par auto-jeu convertit les modèles de langage faibles en modèles de langage forts

*auteur:Des chercheurs de l'UCLA, de l'Université Tsinghua et de l'Université de Californie

*original:https://arxiv.org/abs/2401.01335

Les chercheurs ont proposé une nouvelle méthode de réglage fin appelée Self-Play fine-tuning (SPIN), dont le cœur est le mécanisme de jeu automatique. Le modèle de langage génère des données de formation à partir de son itération précédente et ajuste davantage sa stratégie en distinguant ces réponses auto-générées des réponses obtenues à partir de données annotées par l'homme.

Auto-apprentissage : alignement des modèles de langage avec le langage d'instruction généré automatiquement

Auto-apprentissage : alignement des modèles de langage avec les instructions auto-générées

*auteur:Université de Washington, etc.

*original:https://arxiv.org/abs/2212.10560

L’auto-apprentissage, proposé par les chercheurs, peut exploiter le contenu généré par le modèle de langage pré-entraîné lui-même pour améliorer sa capacité à suivre les instructions. Les chercheurs ont généré des échantillons de conseils, d’entrées et de sorties à partir du modèle linguistique. Filtrez les échantillons non valides ou similaires avant de les utiliser pour affiner le modèle d'origine. Les chercheurs ont appliqué la méthode à GPT-3 et l’ont vérifiée sur Super-NaturalInstructions. Les résultats ont montré une amélioration de 33% par rapport au modèle d'origine, ce qui est comparable aux performances d'InstructGPT-001 formé avec des données utilisateur privées et des annotations manuelles.

Suivez le compte officiel et répondez « LLM Papers » pour télécharger la collection de documents.

Références :

https://eugeneyan.com/writing/llm-reading-list/.

Command Palette

Ingénieurs d'Amazon Soigneusement Sélectionnés, Plus De 40 Articles De LLM Collectés