2ヶ月前
OPT: オープンな事前学習済みトランスフォーマー言語モデル
Susan Zhang; Stephen Roller; Naman Goyal; Mikel Artetxe; Moya Chen; Shuohui Chen; Christopher Dewan; Mona Diab; Xian Li; Xi Victoria Lin; Todor Mihaylov; Myle Ott; Sam Shleifer; Kurt Shuster; Daniel Simig; Punit Singh Koura; Anjali Sridhar; Tianlu Wang; Luke Zettlemoyer

要約
大規模言語モデルは、しばしば数十万単位の計算日にわたって訓練され、ゼロショット学習やファーソット学習において驚異的な能力を示しています。これらのモデルの計算コストが非常に高いため、多額の資金なしでは再現することが困難です。APIを通じて利用可能な数少ないモデルでも、完全なモデルの重みへのアクセスが許可されていないため、研究が困難となっています。本稿では、Open Pre-trained Transformers (OPT) を紹介します。これは125Mから175Bパラメータを持つ一連のデコーダーのみの事前学習済みトランスフォーマーで、関心のある研究者に対して全面的にかつ責任を持って共有することを目指しています。我々は、OPT-175BがGPT-3と同等の性能を示すことを示し、開発に必要な二酸化炭素排出量はGPT-3の約1/7であることを確認しました。また、我々が直面したインフラストラクチャ上の課題を詳細に記録したログブックと、公開されたすべてのモデルで実験を行うためのコードも提供します。