2ヶ月前

LLaMA: オープンで効率的な基礎言語モデル

Hugo Touvron; Thibaut Lavril; Gautier Izacard; Xavier Martinet; Marie-Anne Lachaux; Timothée Lacroix; Baptiste Rozière; Naman Goyal; Eric Hambro; Faisal Azhar; Aurelien Rodriguez; Armand Joulin; Edouard Grave; Guillaume Lample

論文の詳細を見る

要約

私たちは、7Bから65Bのパラメータを持つ基礎言語モデルのコレクションであるLLaMAを紹介します。これらのモデルは、兆単位のトークンで訓練され、公開されているデータセットのみを使用して最先端のモデルを訓練することが可能であることを示しています。特に、LLaMA-13BはほとんどのベンチマークでGPT-3（175B）を上回り、LLaMA-65Bは最優秀なモデルであるChinchilla-70BとPaLM-540Bと同等の性能を発揮します。私たちは、これらのすべてのモデルを研究コミュニティに公開します。