vor 2 Monaten
LLaMA: Offene und effiziente Grundsprachmodelle
Hugo Touvron; Thibaut Lavril; Gautier Izacard; Xavier Martinet; Marie-Anne Lachaux; Timothée Lacroix; Baptiste Rozière; Naman Goyal; Eric Hambro; Faisal Azhar; Aurelien Rodriguez; Armand Joulin; Edouard Grave; Guillaume Lample

Abstract
Wir stellen LLaMA vor, eine Sammlung von Fundierungssprachmodellen mit einer Parameteranzahl von 7B bis 65B. Unsere Modelle werden auf Trillionen von Token trainiert, und wir zeigen, dass es möglich ist, Stand-des-Wissens-Modelle ausschließlich mit öffentlich verfügbaren Datensätzen zu trainieren, ohne auf proprietäre und nicht zugängliche Datensätze zurückzugreifen. Insbesondere übertrifft LLaMA-13B GPT-3 (175B) in den meisten Benchmarks, und LLaMA-65B ist wettbewerbsfähig mit den besten Modellen, nämlich Chinchilla-70B und PaLM-540B. Wir veröffentlichen alle unsere Modelle an die Forschergemeinschaft.