ميديسويفت: نماذج لغوية طبية مسبقة التدريب كثيفة التخفيف بكفاءة

تم تدريب النماذج اللغوية الكبيرة (LLMs) عادةً على بيانات مصدر عامة تغطي مجالات متنوعة، لكن الازدياد الأخير في ظهور النماذج اللغوية الكبيرة المخصصة للمجالات المحددة أظهر إمكاناتها في التفوق على النماذج العامة في المهام المحددة بالمجال (مثل المجال الطبي الحيوي). وعلى الرغم من أن التدريب المسبق المخصص للمجال يعزز الكفاءة ويؤدي إلى نماذج أصغر، تظل تكاليف الحوسبة المرتبطة بتدريب هذه النماذج اللغوية الكبيرة مرتفعة، مما يشكل تحديات مالية كبيرة. نقدم "MediSwift"، وهي مجموعة من النماذج اللغوية الكبيرة في المجال الطبي الحيوي، تستخدم التدريب المسبق النادر على بيانات نصية طبية حيوية محددة. وباستخدام ما يصل إلى 75% من الندرة في الأوزان خلال مرحلة التدريب المسبق، تمكّن MediSwift من خفض استهلاك العمليات الحسابية أثناء التدريب (FLOPs) بنسبة 2 إلى 2.5 مرة. ومن المهم الإشارة إلى أن جميع عمليات التدريب المسبق النادر تم إجراؤها على نظام Cerebras CS-2، الذي صُمّم خصيصًا لتحقيق مكاسب في السرعة من خلال الندرة غير المُنظّمة في الأوزان، مما ساهم بشكل كبير في تحسين كفاءة نماذج MediSwift. ومن خلال التدريب الدقيق المكثف (dense fine-tuning) والتقنيات الاستراتيجية للتحفيز اللين (soft prompting)، تفوقت نماذج MediSwift على النماذج اللغوية الكبيرة الحالية حتى تلك التي تصل إلى 7 مليار معلمة في المهام الطبية الحيوية، وحققت معايير جديدة فيما يتعلق بالكفاءة-الدقة في مهام مثل PubMedQA. تُظهر نتائجنا أن التدريب المسبق النادر، جنبًا إلى جنب مع التدريب الدقيق المكثف والتحفيز اللين، يُعدّ طريقة فعّالة لإنشاء نماذج عالية الأداء وفعّالة من حيث الحوسبة في المجالات المتخصصة.