منذ 2 أشهر

OPT: نماذج اللغة المتранسформر المدربة مسبقًا بشكل مفتوح

Susan Zhang; Stephen Roller; Naman Goyal; Mikel Artetxe; Moya Chen; Shuohui Chen; Christopher Dewan; Mona Diab; Xian Li; Xi Victoria Lin; Todor Mihaylov; Myle Ott; Sam Shleifer; Kurt Shuster; Daniel Simig; Punit Singh Koura; Anjali Sridhar; Tianlu Wang; Luke Zettlemoyer

عرض تفاصيل الورقة البحثية

OPT: نماذج اللغة المتранسформر المدربة مسبقًا بشكل مفتوح

الملخص

النماذج اللغوية الكبيرة، التي غالباً ما يتم تدريبها لعدة مئات من الآلاف من أيام الحوسبة، أظهرت قدرات ملحوظة على التعلم بدون أمثلة أو بقليل منها (zero- و few-shot learning). نظراً لتكلفة الحوسبة المرتفعة لهذه النماذج، فإنها صعبة التكرار دون رأس مال كبير. أما بالنسبة للنماذج القليلة المتاحة عبر واجهات البرمجة (APIs)، فلا يُمنح حق الوصول إلى الأوزان الكاملة للنموذج، مما يجعل دراستها صعبة. في هذا السياق، نقدم "المحولات المدربة بشكل مفتوح" (Open Pre-trained Transformers - OPT)، وهي مجموعة من المحولات المدربة فقط بالمنشئ تتراوح بين 125 مليون و175 مليار معامل، والتي نهدف إلى مشاركتها بشكل كامل ومسؤول مع الباحثين المهتمين. نوضح أن OPT-175B يضاهي GPT-3 في أدائه، مع الحاجة إلى بصمة كربونية تبلغ فقط سُبع ما يحتاجه GPT-3 للتطوير. كما سنقوم بإصدار دفتر تسجيلنا الذي يفصل التحديات البنية التحتية التي واجهناها، بالإضافة إلى الرمز البرمجي لإجراء التجارب على جميع النماذج المقدمة.