HyperAIHyperAI
منذ 17 أيام

بيو ميسترال: مجموعة من النماذج الكبيرة المُدرَّبة مسبقًا مفتوحة المصدر للنُّطُق الطبي

Yanis Labrak, Adrien Bazoge, Emmanuel Morin, Pierre-Antoine Gourraud, Mickael Rouvier, Richard Dufour
بيو ميسترال: مجموعة من النماذج الكبيرة المُدرَّبة مسبقًا مفتوحة المصدر للنُّطُق الطبي
الملخص

في السنوات الأخيرة، أظهرت النماذج اللغوية الكبيرة (LLMs) مرونة ملحوظة، مع إمكانية تطبيقها في مجالات متخصصة مثل الرعاية الصحية والطب. وعلى الرغم من توفر العديد من النماذج اللغوية الكبيرة المفتوحة المصدر المُصممة خصيصًا للسياقات الصحية، تظل عملية تكييف النماذج اللغوية الكبيرة العامة مع المجال الطبي تحديًا كبيرًا. في هذا البحث، نقدّم "BioMistral"، وهي نموذج لغوي كبير مفتوح المصدر مخصص للمجال الحيوي، يستند إلى نموذج Mistral كأساس، ويتم تدريبه بشكل إضافي على مجموعة بيانات PubMed Central. قمنا بتقييم شامل لـ BioMistral على معيار مكوّن من 10 مهام معروفة في مجال إجابة الأسئلة الطبية باللغة الإنجليزية. كما استكشفنا نماذج خفيفة الوزن تم الحصول عليها من خلال تقنيات التكميم (quantization) ودمج النماذج (model merging). أظهرت النتائج أداءً متفوقًا لـ BioMistral مقارنة بالنماذج الطبية المفتوحة المصدر الحالية، وتميّزها التنافسي مقارنة بالنسخ المُلكية. وأخيرًا، وللتغلب على ندرة البيانات خارج اللغة الإنجليزية، وتحقيق تقييم شامل لقدرات التعميم متعدد اللغات في النماذج اللغوية الكبيرة الطبية، قمنا بترجمة هذا المعيار تلقائيًا وتقييمه بلغات أخرى تصل إلى سبع لغات. ويمثل هذا أول تقييم واسع النطاق متعدد اللغات للنماذج اللغوية الكبيرة في المجال الطبي. وتم إتاحة جميع البيانات، ومواصفات المعايير المترجمة، والنصوص البرمجية، وجميع النماذج الناتجة عن تجاربنا بشكل مجاني.

بيو ميسترال: مجموعة من النماذج الكبيرة المُدرَّبة مسبقًا مفتوحة المصدر للنُّطُق الطبي | أحدث الأوراق البحثية | HyperAI