تقرير فني لـ MedGemma

الذكاء الاصطناعي (AI) يمتلك إمكانات كبيرة في تطبيقات الرعاية الصحية، لكن تدريبه وتطبيقه يواجه تحديات بسبب تنوع البيانات الطبية، تعقيد المهام، وضرورة الحفاظ على الخصوصية. تعتبر النماذج الأساسية التي تؤدي بشكل جيد في المهام الطبية وتتطلب بيانات ضبط أقل محددة للمهمة حاسمة لتسريع تطوير تطبيقات الذكاء الاصطناعي في الرعاية الصحية. نقدم MedGemma، وهي مجموعة من نماذج الرؤية واللغة الطبية الأساسية المستندة إلى Gemma 3 بحجم 4B و27B. يظهر MedGemma فهماً طبياً متقدماً واستدلالاً على الصور والنصوص، مما يتجاوز بكثير أداء النماذج التوليدية المشابهة الحجم ويقترب من أداء النماذج المحددة للمهمة، مع الحفاظ على القدرات العامة لنماذج Gemma 3 الأساسية. بالنسبة للمهام خارج التوزيع، يحقق MedGemma تحسينات بنسبة 2.6-10% في الإجابة على الأسئلة المتعددة الوسائط الطبية، و15.5-18.1% في تصنيف العلامات الموجودة في صور الأشعة السينية للصدر، و10.8% في التقييمات الوكيلية مقارنة بالنماذج الأساسية. يمكن أن يؤدي التعديل الدقيق لـ MedGemma إلى تحسين الأداء أكثر في المجالات الفرعية، حيث يقلل من الأخطاء في استرجاع المعلومات من السجلات الصحية الإلكترونية بنسبة 50% ويصل إلى أداء مماثل للطرق المتخصصة الأكثر حداثة لتصنيف الهواء تحت الغشاء البلوري (pneumothorax) وتصنيف اللواصق الباثولوجية التاريخية (histopathology patch). بالإضافة إلى ذلك، نقدم MedSigLIP، وهو مُشفِّر رؤية تم ضبطه طبياً مشتق من SigLIP. يقوم MedSigLIP بتعزيز قدرات الفهم البصري لـ MedGemma ويحقق كمُشفِّر أداءً مماثلاً أو أفضل من المُشفِّرات المتخصصة للصور الطبية. مجتمعةً، توفر مجموعة MedGemma أساسًا قويًا لقدرات الصور والنصوص الطبية، ولها إمكانات كبيرة لتسريع البحث الطبي وتطوير التطبيقات اللاحقة. يمكن العثور على مجموعة MedGemma بما فيها الدروس التعليمية وأوزان النموذج على هذا الرابط: https://this https URL