2ヶ月前

Llama 2: オープンな基礎モデルと微調整チャットモデル

Hugo Touvron; Louis Martin; Kevin Stone; Peter Albert; Amjad Almahairi; Yasmine Babaei; Nikolay Bashlykov; Soumya Batra; Prajjwal Bhargava; Shruti Bhosale; Dan Bikel; Lukas Blecher; Cristian Canton Ferrer; Moya Chen; Guillem Cucurull; David Esiobu; Jude Fernandes; Jeremy Fu; Wenyin Fu; Brian Fuller; Cynthia Gao; Vedanuj Goswami; Naman Goyal; Anthony Hartshorn; Saghar Hosseini; Rui Hou; Hakan Inan; Marcin Kardas; Viktor Kerkez; Madian Khabsa; Isabel Kloumann; Artem Korenev; Punit Singh Koura; Marie-Anne Lachaux; Thibaut Lavril; Jenya Lee; Diana Liskovich; Yinghai Lu; Yuning Mao; Xavier Martinet; Todor Mihaylov; Pushkar Mishra; Igor Molybog; Yixin Nie; Andrew Poulton; Jeremy Reizenstein; Rashi Rungta; Kalyan Saladi; Alan Schelten; Ruan Silva; Eric Michael Smith; Ranjan Subramanian; Xiaoqing Ellen Tan; Binh Tang; Ross Taylor; Adina Williams; Jian Xiang Kuan; Puxin Xu; Zheng Yan; Iliyan Zarov; Yuchen Zhang; Angela Fan; Melanie Kambadur; Sharan Narang; Aurelien Rodriguez; Robert Stojnic; Sergey Edunov; Thomas Scialom

要約

本研究では、70億から700億パラメータの規模を持つ事前学習済みおよび微調整された大規模言語モデル（Large Language Models: LLMs）のコレクションであるLlama 2を開発し、公開しました。当社が微調整したLLMs、Llama 2-Chatは、対話用途に最適化されています。我々のモデルは、テストしたほとんどのベンチマークでオープンソースのチャットモデルを上回り、有用性と安全性に関する人間評価に基づいて、クローズドソースのモデルの代替として適している可能性があります。Llama 2-Chatの微調整と安全性向上に向けたアプローチについて詳細に説明し、コミュニティが当社の研究を基盤として活用し、LLMsの責任ある開発に貢献できるようにしています。