2달 전

LLaMA: 오픈하고 효율적인 기초 언어 모델

Hugo Touvron; Thibaut Lavril; Gautier Izacard; Xavier Martinet; Marie-Anne Lachaux; Timothée Lacroix; Baptiste Rozière; Naman Goyal; Eric Hambro; Faisal Azhar; Aurelien Rodriguez; Armand Joulin; Edouard Grave; Guillaume Lample

논문 세부 정보 보기

초록

우리는 7B에서 65B 파라미터를 가진 기초 언어 모델들의 집합인 LLaMA를 소개합니다. 우리의 모델은 수조 개의 토큰으로 학습되었으며, 공개된 데이터셋만을 사용하여 최신 모델을 학습할 수 있음을 보여주었습니다. 소유권이 있는 접근할 수 없는 데이터셋을 사용하지 않고도 가능하다는 점을 강조합니다. 특히, LLaMA-13B는 대부분의 벤치마크에서 GPT-3 (175B)를 능가하며, LLaMA-65B는 최고의 모델인 Chinchilla-70B와 PaLM-540B와 경쟁력이 있습니다. 우리는 모든 모델을 연구 커뮤니티에 공개합니다.