HyperAIHyperAI
منذ 2 أشهر

MEDITRON-70B: توسيع التدريب الطبي للنماذج اللغوية الكبيرة

Zeming Chen; Alejandro Hernández Cano; Angelika Romanou; Antoine Bonnet; Kyle Matoba; Francesco Salvi; Matteo Pagliardini; Simin Fan; Andreas Köpf; Amirkeivan Mohtashami; Alexandre Sallinen; Alireza Sakhaeirad; Vinitra Swamy; Igor Krawczuk; Deniz Bayazit; Axel Marmet; Syrielle Montariol; Mary-Anne Hartley; Martin Jaggi; Antoine Bosselut
MEDITRON-70B: توسيع التدريب الطبي للنماذج اللغوية الكبيرة
الملخص

يمكن للنماذج اللغوية الكبيرة (LLMs) أن تساهم في تحقيق الديمقراطية في الوصول إلى المعرفة الطبية. رغم الجهود الكثيرة التي بُذلت للاستفادة من وتحسين قدرات المعرفة والمنطق الطبي لهذه النماذج، فإن النماذج الناتجة إما مغلقة المصدر (مثل PaLM، GPT-4) أو محدودة الحجم (<= 13 مليار معلمة)، مما يحد من قدراتها. في هذا البحث، نحسن الوصول إلى النماذج اللغوية الكبيرة في المجال الطبي بإطلاق MEDITRON: مجموعة من النماذج اللغوية المفتوحة المصدر بحجم 7 مليارات و70 مليار معلمة، وهي مُعدَّلة للمجال الطبي. يعتمد MEDITRON على Llama-2 (من خلال تعديلنا لمدرب Megatron-LM الموزع من Nvidia)، ويقوم بتوسيع التدريب الأولي على مكتبة طبية شاملة تم اختيارها بدقة، تشمل مقالاتPubMed المختارة، الملخصات، والمبادئ التوجيهية الطبية المعترف بها دوليًا. أظهرت التقييمات باستخدام أربع مقاييس طبية رئيسية تحسينات كبيرة في الأداء بالمقارنة مع العديد من النماذج الرائدة قبل وبعد التحسين الخاص بالمهمة. بشكل عام، حقق MEDITRON زيادة أداء مطلقة بنسبة 6% عن أفضل نموذج عام متاح في فئته وزيادة بنسبة 3% عن أقوى نموذج قمنا بتحسينه من Llama-2. بالمقارنة مع النماذج اللغوية المغلقة المصدر، يتفوق MEDITRON-70B على GPT-3.5 وMed-PaLM ويقترب بنسبة 5% من GPT-4 و10% من Med-PaLM-2. نطلق رمزنا المستخدم لإعداد المكتبة الطبية للتدريب الأولي وأوزان نموذج MEDITRON لدفع تطوير المزيد من النماذج اللغوية الطبية الأكثر قدرة ضمن مجتمع البرمجيات المفتوحة المصدر.

MEDITRON-70B: توسيع التدريب الطبي للنماذج اللغوية الكبيرة | أحدث الأوراق البحثية | HyperAI