HyperAIHyperAI
vor 2 Monaten

LLaMA: Offene und effiziente Grundsprachmodelle

Hugo Touvron; Thibaut Lavril; Gautier Izacard; Xavier Martinet; Marie-Anne Lachaux; Timothée Lacroix; Baptiste Rozière; Naman Goyal; Eric Hambro; Faisal Azhar; Aurelien Rodriguez; Armand Joulin; Edouard Grave; Guillaume Lample
LLaMA: Offene und effiziente Grundsprachmodelle
Abstract

Wir stellen LLaMA vor, eine Sammlung von Fundierungssprachmodellen mit einer Parameteranzahl von 7B bis 65B. Unsere Modelle werden auf Trillionen von Token trainiert, und wir zeigen, dass es möglich ist, Stand-des-Wissens-Modelle ausschließlich mit öffentlich verfügbaren Datensätzen zu trainieren, ohne auf proprietäre und nicht zugängliche Datensätze zurückzugreifen. Insbesondere übertrifft LLaMA-13B GPT-3 (175B) in den meisten Benchmarks, und LLaMA-65B ist wettbewerbsfähig mit den besten Modellen, nämlich Chinchilla-70B und PaLM-540B. Wir veröffentlichen alle unsere Modelle an die Forschergemeinschaft.

LLaMA: Offene und effiziente Grundsprachmodelle | Neueste Forschungsarbeiten | HyperAI