OPT: نماذج اللغة المتранسформر المدربة مسبقًا بشكل مفتوح

النماذج اللغوية الكبيرة، التي غالباً ما يتم تدريبها لعدة مئات من الآلاف من أيام الحوسبة، أظهرت قدرات ملحوظة على التعلم بدون أمثلة أو بقليل منها (zero- و few-shot learning). نظراً لتكلفة الحوسبة المرتفعة لهذه النماذج، فإنها صعبة التكرار دون رأس مال كبير. أما بالنسبة للنماذج القليلة المتاحة عبر واجهات البرمجة (APIs)، فلا يُمنح حق الوصول إلى الأوزان الكاملة للنموذج، مما يجعل دراستها صعبة. في هذا السياق، نقدم "المحولات المدربة بشكل مفتوح" (Open Pre-trained Transformers - OPT)، وهي مجموعة من المحولات المدربة فقط بالمنشئ تتراوح بين 125 مليون و175 مليار معامل، والتي نهدف إلى مشاركتها بشكل كامل ومسؤول مع الباحثين المهتمين. نوضح أن OPT-175B يضاهي GPT-3 في أدائه، مع الحاجة إلى بصمة كربونية تبلغ فقط سُبع ما يحتاجه GPT-3 للتطوير. كما سنقوم بإصدار دفتر تسجيلنا الذي يفصل التحديات البنية التحتية التي واجهناها، بالإضافة إلى الرمز البرمجي لإجراء التجارب على جميع النماذج المقدمة.