HyperAIHyperAI
il y a 2 mois

LLaMA : Modèles de langage fondamentaux ouverts et efficaces

Hugo Touvron; Thibaut Lavril; Gautier Izacard; Xavier Martinet; Marie-Anne Lachaux; Timothée Lacroix; Baptiste Rozière; Naman Goyal; Eric Hambro; Faisal Azhar; Aurelien Rodriguez; Armand Joulin; Edouard Grave; Guillaume Lample
LLaMA : Modèles de langage fondamentaux ouverts et efficaces
Résumé

Nous présentons LLaMA, une collection de modèles de langage fondamentaux comprenant des tailles allant de 7 milliards à 65 milliards de paramètres. Nous formons nos modèles sur des trillions de jetons et démontrons qu'il est possible d'entraîner des modèles d'avant-garde en utilisant exclusivement des jeux de données publiquement disponibles, sans recourir à des jeux de données propriétaires et inaccessibles. En particulier, LLaMA-13B surpasse GPT-3 (175 milliards) dans la plupart des benchmarks, et LLaMA-65B est compétitif avec les meilleurs modèles, tels que Chinchilla-70B et PaLM-540B. Nous mettons à disposition tous nos modèles pour la communauté scientifique.

LLaMA : Modèles de langage fondamentaux ouverts et efficaces | Articles de recherche récents | HyperAI