استنادًا إلى 25000 نقطة بيانات سريرية، أصدرت جامعة ستانفورد أول نموذج لغة بصرية ثلاثي الأبعاد أصلي للتصوير المقطعي المحوسب للبطن، وهو Merlin، والذي يتفوق في 752 مهمة.

منذ 3 أشهر

التصوير المقطعي المحوسب (CT) تقنية تصوير شائعة الاستخدام في التشخيص والعلاج السريري، ويُستخدم على نطاق واسع لتشخيص الأمراض في مختلف أنحاء الجسم. تُشير الإحصائيات إلى إجراء ما يقارب 300 مليون فحص بالأشعة المقطعية سنويًا على مستوى العالم، حيث تُمثل فحوصات البطن المقطعية حوالي ربعها. ومع ازدياد اعتماد التشخيص والعلاج الطبي على تقنيات التصوير، يستمر الطلب على التشخيص التصويري في النمو. ومع ذلك، يستغرق أخصائي الأشعة عادةً 20 دقيقة لتفسير صورة واحدة من صور الأشعة المقطعية للبطن، وتواجه كفاءة التشخيص صعوبة في مواكبة الطلب السريري المتزايد بسرعة. بل إن النقص الحاد في أخصائيي الأشعة يُعدّ أكثر خطورة؛ إذ تُشير البيانات التنبؤية إلى أن...بحلول عام 2036، ستواجه بعض المناطق نقصاً يزيد عن 19000 أخصائي أشعة، مما يسلط الضوء على تزايد عدم التوازن بين العرض والطلب في هذا القطاع.

بفضل قدراتها المتطورة في معالجة البيانات وتحليلها عالي الإنتاجية، تستطيع تقنيات التعلم الآلي استخلاص السمات بسرعة وتحديد كميات هائلة من الصور الطبية بذكاء، ما يُسهم بفعالية في معالجة نقاط الضعف في التفسير اليدوي التقليدي للصور، مثل انخفاض الكفاءة ونقص الموارد البشرية. وعلى وجه الخصوص، تُمكّن نماذج اللغة المرئية (VLMs)، المدعومة بتقنية التدريب المسبق للغة والصور التباينية (CLIP)، من مواءمة التمثيلات النصية والمرئية في فضاء تضمين مشترك، وبالتالي دعم الإشراف على النماذج المرئية باستخدام اللغة الطبيعية.باعتباره نموذجًا أساسيًا، لا يمكن لهذا النوع من النماذج تحقيق التعلم بدون أمثلة فحسب، بل يمكن أيضًا، بعد دمجه مع نموذج لغوي كبير وتدريبه باستخدام البيانات السريرية، تكييفه بسرعة لتحليل الصور والتقارير الإشعاعية.

إلى جانب التطورات النظرية والتقنية، تُظهر الطرق الحالية القائمة على نماذج المحاكاة الافتراضية إمكانات تطبيقية هائلة في مجال الأشعة، حيث تم تطبيق نماذج مثل BiomedCLIP وLLaVA-Rad وMed-PaLMM بنجاح. ومع ذلك، فإن التقدم التقني وتطبيق النماذج لا يُترجمان بالضرورة إلى تطبيق ناضج. لا تزال نماذج المحاكاة الافتراضية تواجه العديد من التحديات الرئيسية في التطبيقات العملية، مما يعيق اعتمادها على نطاق واسع واستخدامها الموثوق في البيئات السريرية.

أولاً،تركز الطرق الحالية في الغالب على الصور ثنائية الأبعاد، مثل صور الأشعة السينية، مما يجعل من الصعب معالجة الصور ثلاثية الأبعاد بكفاءة، مثل صور الأشعة المقطعية للبطن. كما أن طريقة تحليل الحجم الكامل من خلال تجميع الشرائح غير فعالة للغاية.ثانيًا،لا توجد حاليًا مجموعة بيانات متاحة للعموم للتصوير المقطعي المحوسب للبطن لتدريب وتقييم نماذج التعلم الآلي القائمة على الفيديو. لم تُدمج النماذج الخاصة بشكل كامل البيانات السريرية متعددة الوسائط، مثل الترميز التشخيصي وتقارير الأشعة، كما يوجد نقص في معيار موحد لمهام التصوير المقطعي المحوسب ثلاثي الأبعاد للبطن، مما ينتج عنه فجوة كبيرة في نظام تدريب وتقييم النماذج الأساسية ذات الصلة.

وفي ضوء التحديات المذكورة أعلاه،اقترح فريق بحثي من جامعة ستانفورد نموذج Merlin، وهو أول نموذج لغة بصرية ثلاثي الأبعاد أصلي لفحوصات التصوير المقطعي المحوسب للبطن، إلى جانب مجموعة بيانات تحتوي على 25494 فحصًا متطابقًا للتصوير المقطعي المحوسب للبطن وتقارير الأشعة. تم تدريب برنامج Merlin على وحدة معالجة رسومية واحدة من نوع NVIDIA A6000 باستخدام بيانات منظمة وغير منظمة من مستشفيات حقيقية، بما في ذلك صور الأشعة المقطعية المزدوجة، ورموز التشخيص في السجلات الصحية الإلكترونية، وتقارير الأشعة. أجرى فريق البحث عملية تحقق داخلية على 5137 صورة أشعة مقطعية، وتحققًا خارجيًا على 44098 صورة أشعة مقطعية ومجموعتي بيانات متاحتين للعموم تركزان على صور الأشعة المقطعية للبطن (VerSe وTotalSegmentator). تُظهر نتائج التحقق أن Merlin يتفوق بشكل شامل على نماذج معيارية محددة في مهام القياس.

تم نشر نتائج البحث ذات الصلة، بعنوان "Merlin: نموذج وقاعدة بيانات للرؤية واللغة في التصوير المقطعي المحوسب"، في مجلة Nature.

أبرز الأبحاث:

* تقترح هذه الدراسة Merlin، وهو أول نموذج أساسي للغة البصرية ثلاثية الأبعاد الأصلية لفحوصات التصوير المقطعي المحوسب للبطن، متجاوزًا بذلك قيود النماذج السابقة التي ركزت فقط على الصور ثنائية الأبعاد.

* أصدرت الدراسة مجموعة بيانات واسعة النطاق تحتوي على 25494 من صور الأشعة المقطعية للبطن وتقارير الأشعة، مما يسد فجوة في مجال مجموعات البيانات.

* يدمج هذا البحث بشكل مبتكر بيانات السجلات الصحية الإلكترونية المنظمة وتقارير الأشعة غير المنظمة كإشارات إشرافية، ويقترح إطار عمل للتدريب المسبق متعدد المراحل يجمع بين التعلم متعدد المهام والتدريب المرحلي.

عنوان الورقة:

https://www.nature.com/articles/s41586-026-10181-8
تابع حسابنا الرسمي على WeChat وأجب بكلمة "Merlin" في الخلفية للحصول على ملف PDF كامل.

سد فجوة البيانات اللازمة لتدريب وتقييم نماذج التعلم الافتراضي

لسد الفجوة في نقص مجموعات بيانات التصوير المقطعي المحوسب للبطن المتاحة للجمهور لتدريب وتقييم نماذج التعلم الافتراضي ثلاثية الأبعاد، استخدم فريق البحث كمية كبيرة من البيانات المتوافقة من المراكز الطبية الحقيقية.وفي النهاية، تم إصدار مجموعة بيانات سريرية عالية الجودة تحتوي على 18321 مريضًا، وتغطي عمليات المسح المقطعي المحوسب المزدوجة، وتقارير الأشعة غير المنظمة، والسجلات الصحية الإلكترونية المنظمة.في:

* بيانات التصوير المقطعي المحوسب:

استُخلصت البيانات من صور مقطعية محوسبة للبطن بالكامل، تحتوي كل منها على عدة تسلسلات. تم اختيار التسلسل الذي يحتوي على أكبر عدد من الشرائح المحورية لزيادة محتوى المعلومات إلى أقصى حد. أسفرت هذه العملية عن 10,628,509 صورة ثنائية الأبعاد من 25,528 صورة مقطعية محوسبة.

* تقرير الأشعة:

جمعت الدراسة تقارير الأشعة الخاصة بكل فحص بالأشعة المقطعية. تتألف هذه التقارير من عدة أجزاء، أهمها "النتائج" و"الانطباعات". تتضمن النتائج ملاحظات تفصيلية عن كل جهاز من أجهزة الجسم، بينما تلخص الانطباعات أهم النتائج السريرية. والجدير بالذكر أنه بناءً على دقة المعلومات المقدمة وصحة الدراسات السابقة، اقتصر التدريب على قسم "النتائج" فقط، بإجمالي 10,051,571 رمزًا.

* السجل الصحي الإلكتروني:

استُخدمت البيانات لتدريب النموذج باستخدام معلومات تشخيصية على شكل رموز التصنيف الدولي للأمراض (ICD)، والتي رُبطت بسجلات التصوير المقطعي المحوسب للمرضى المعنيين. تحتوي مجموعة البيانات على 954,013 رمزًا من رموز ICD9، منها 5,686 رمزًا فريدًا؛ و2,041,280 رمزًا من رموز ICD10، منها 10,867 رمزًا فريدًا.

فيما يتعلق بتقسيم البيانات، قُسّمت مجموعة بيانات التدريب المسبق إلى ثلاث قواعد بيانات فرعية: 60% (15331 صورة مقطعية محوسبة)، و20% (5060 صورة مقطعية محوسبة)، و20% (5137 صورة مقطعية محوسبة)، استُخدمت للتدريب والتحقق والاختبار على التوالي. وكإجراء احترازي، لم تُضمّن صور مقطعية محوسبة متعددة لمريض واحد في قاعدة البيانات الفرعية نفسها.

أيضًا،كما استخدمت التجربة 44098 نقطة بيانات من ثلاث مؤسسات مستقلة للتحقق الخارجي، والتي تم استخدامها جميعًا للاختبار.التفاصيل هي كما يلي:

* مجموعة البيانات الخارجية 1: تحتوي على 6997 صورة مقطعية محوسبة للبطن
* مجموعة البيانات الخارجية 2: تحتوي على 25986 صورة مقطعية محوسبة للبطن
* مجموعة البيانات الخارجية 3: تحتوي على 4872 صورة مقطعية للبطن و 6243 صورة مقطعية للصدر.

أما مجموعتا البيانات العامتان المخصصتان لتصوير البطن المقطعي المحوسب فهما VerSe وTotalSegmentator. تحتوي مجموعة بيانات VerSe على 160 صورة مقطعية محوسبة، بينما تحتوي مجموعة بيانات TotalSegmentator على 401 صورة مقطعية محوسبة. من بين هذه الصور، تم اختيار 34 صورة للتدريب المسبق واختبار التنبؤ متعدد المهام ومتعدد الأمراض، بينما قُسّمت الصور المتبقية البالغ عددها 367 صورة إلى مجموعتين: 80% (293 صورة) و20% (74 صورة) للتدريب والتحقق على التوالي.

تضمن استراتيجيات التعلم متعدد المهام والتدريب المرحلي والحلول المتباينة كفاءة عالية لشركة ميرلين.

فيما يتعلق ببنية النموذج،يحقق برنامج Merlin محاذاة الصورة والنص من خلال استخدام بنية ترميز مزدوجة تتكون من مشفر للصورة ومشفر للنص.يستخدم مُشفّر الصور شبكة I3D ResNet152، التي تعيد استخدام أوزان النموذج ثنائي الأبعاد المُدرّب مسبقًا من خلال "التضخيم" وتنسخها إلى البُعد الثالث لنواة الشبكة الالتفافية ثلاثية الأبعاد. المُشفّر المُستخدم في هذه الورقة هو Clinical Longformer، الذي يتميز بقدرة على معالجة النصوص الطويلة مقارنةً بنماذج الطب الحيوي المُدرّبة مسبقًا الأخرى ومُشفّرات CLIP العامة، حيث يدعم 4096 سياقًا طويلًا ويتكيف مع احتياجات التقارير النصية الطويلة.

*نظرة عامة على التدريب والتقييم في برنامج ميرلين*

يستخدم برنامج Merlin لتدريب النموذج دالتين للخسارة للتعامل مع التصنيف الظاهري والتقارير الإشعاعية على التوالي:تم استخدام دالة فقدان الإنتروبيا المتقاطعة الثنائية للتصنيف الظاهري؛ وتم استخدام دالة فقدان InfoNCE لتعلم تباين التقارير الإشعاعية.تم ضبط بُعد التضمين لكل من الصور والنصوص على 512 بشكل موحد، بما يتوافق مع بُعد التضمين المستخدم في نموذج ViT-Base في تجارب OpenCLIP. بعد ذلك، تم تفعيل خاصية التحقق من التدرج لكل من مُشفِّر الصور ومُشفِّر النصوص في استراتيجية التدريب، وتم استخدام تدريب FP16 ذي الدقة المختلطة.

استُخدم مُحسِّن AdamW بمعدل تعلّم ابتدائي قدره 1 × 10⁻⁵ وβ = (0.9، 0.999). وتمّ توظيف مُجدوِل معدل تعلّم جيب التمام، حيث حُدِّد عدد دورات التدريب التي انخفض عندها معدل التعلّم إلى 0، ثمّ إلى 300. وتكوّن الجهاز من وحدة معالجة رسومية واحدة من نوع A6000 بسعة 48 جيجابايت، وبحد أقصى لحجم الدفعة يبلغ 18.

بالإضافة إلى التدريب باستخدام الأنماط الظاهرية للسجلات الصحية الإلكترونية والتقارير الإشعاعية بطريقة متعددة المهام،كما تناولت الدراسة برنامج تدريبي على مراحل.على وجه التحديد، يتم تدريب مُشفِّر الصور Merlin أولاً باستخدام رموز التشخيص من السجلات الصحية الإلكترونية في المرحلة الأولى؛ ثم يتم تدريبه بشكل مقارن باستخدام التقارير الإشعاعية في المرحلة الثانية. ولمنع نسيان معلومات السجلات الصحية الإلكترونية التي تم تعلمها في المرحلة الأولى، يتم دمج دالة الخسارة النمطية بأوزان أقل في تدريب المرحلة الثانية.

تستخدم المرحلة الأولى مُحسِّن AdamW بمعدل تعلم أولي قدره 1 × 10⁻⁴، β = (0.9، 0.999)، ومُجدوِل معدل التعلم الأسي مع γ = 0.99، ووحدة معالجة رسومية واحدة A6000 بحجم دفعة 22. أما المعلمات الفائقة المستخدمة في المرحلة الثانية فهي نفسها المستخدمة في التدريب متعدد المهام.

باختصار، يُحقق التعلم متعدد المهام والتدريب المرحلي تصميماتٍ مُختلفة للاستراتيجيتين، وقد أدخل فريق البحث تحسيناتٍ على التدريب المرحلي لمقاومة النسيان. تُعدّ استراتيجية التدريب المُختلفة هذه التصميم الأساسي الذي يضمن كفاءة ودقة نظام ميرلين، وقد تمّ التحقق من صحتها بشكلٍ إضافي في تجارب الاستئصال اللاحقة.

أظهر تقييم شامل لـ 752 فئة من فئات المهام أن برنامج Merlin يتفوق على جميع البرامج الأخرى.

في العملية التجريبية، أجرى فريق البحث التحقق الداخلي بناءً على 5137 فحصًا بالأشعة المقطعية والتحقق الخارجي بناءً على 44098 فحصًا بالأشعة المقطعية ومجموعتي بيانات متاحتين للجمهور (VerSe و TotalSegmentator) مع التركيز على فحوصات الأشعة المقطعية للبطن.يوجد ما مجموعه 6 فئات رئيسية من مهام التقييم، تغطي 752 مهمة فرعية محددة.تشمل فئات المهام الرئيسية التصنيف بدون تدريب (31 مهمة فرعية)، والتصنيف الظاهري (692 مهمة فرعية)، والاسترجاع متعدد الوسائط بدون تدريب (23 مهمة فرعية)، والتنبؤ بالمرض لمدة 5 سنوات (6 مهام فرعية)، وإنشاء تقارير الأشعة، والتجزئة ثلاثية الأبعاد.

في مهمة التصنيف الصفري للنتائج، تم تحليل 30 صورة مقطعية محوسبة للبطن من البيانات السريرية الداخلية والخارجية.حقق Merlin درجة F1 قدرها 0.741 على مجموعة بيانات التحقق الداخلي (فترة الثقة 95%، 0.727-0.755) ومتوسط درجة F1 قدره 0.647 على مجموعة بيانات التحقق الخارجي (فترة الثقة 95%، 0.607-0.678).كانت هذه النتائج أعلى بكثير من نتائج نموذج OpenCLIP ثنائي الأبعاد باستخدام تجميع k=1، ونموذج BioMedCLIP ثنائي الأبعاد المُحسَّن باستخدام التجميع المتوسط (P < 0.001). انظر الشكل أدناه:

*تقييم تجارب التصنيف بدون استخدام صور إضافية*

من منظور نوعي،يحافظ برنامج Merlin على أداء عالٍ على مجموعات البيانات الخارجية للأمراض ذات السمات المهمة، مثل الانصباب الجنبي والاستسقاء.مع ذلك، ينخفض أداؤه قليلاً عند التعامل مع الكشف عن السمات الدقيقة، مثل التهاب الزائدة الدودية وتضخم العقد اللمفاوية. إضافةً إلى ذلك، وبدون تجزئة تقرير الأشعة، حقق برنامج Merlin متوسط درجة F1 قدره 0.656 (بفاصل ثقة 95%) على مجموعة بيانات التقييم الخارجي.

مقارنة تجربة الاستئصاليُظهر نموذج Merlin الذي تم تهيئته بشبكة ثلاثية الأبعاد متوسعة أفضل أداء.بلغت قيمة F1 0.741 (بفاصل ثقة 95%، 0.727-0.755)؛ وعند تقسيم تقارير الأشعة، بلغت قيمة النموذج الذي يجمع بين السجلات الصحية الإلكترونية وتقارير الأشعة 0.735 (بفاصل ثقة 95%، 0.719-0.748)؛ وجاءت الخطة التي تستخدم تقارير الأشعة فقط وتُطبّق تقسيم التقارير في المرتبة الثالثة، بقيمة F1 بلغت 0.730 (بفاصل ثقة 95%، 0.714-0.744). وكان لتقسيم تقارير الأشعة من عدمه التأثير الأكبر على أداء النموذج؛ فبدون تقسيم التقارير، انخفضت قيمة F1 لنموذج Merlin بمعدل 7.9 نقطة (P < 0.01).

ومن الجدير بالذكر أيضًا أنيتفوق Merlin بدون استخدام أي بيانات تدريب على جميع الخطوط الأساسية الخاضعة للإشراف في التجارب الخاضعة للإشراف على كل من بيانات التدريب 10% و 100%.عند استخدام بيانات تدريب بحجم 100%، تحسّن مقياس F1 بمقدار 29%، بينما عند استخدام بيانات تدريب بحجم 10%، تحسّن بمقدار مذهل بلغ 45%. تُظهر التجارب أنه باستخدام بيانات تدريب بحجم 100%، يتفوق نموذج Merlin بدون تدريب بشكل ملحوظ على نموذج Merlin المُدرَّب، حيث يُحسِّن مقياس F1 بمقدار 16%.

في مهمة تصنيف الأنماط الظاهرية، تم تقييم أداء برنامج Merlin في التنبؤ بـ 692 نمطًا ظاهريًا سريريًا تم تحديدها بواسطة PheWAS، حيث حقق متوسطًا كليًا للمساحة تحت منحنى خصائص التشغيل (AUROC) قدره 0.812 (فترة ثقة 95%، 0.808-0.816). بلغ إجمالي الأنماط الظاهرية التي تجاوزت قيم AUROC فيها 0.85 ما مجموعه 258 نمطًا، بينما بلغ 102 نمطًا قيم AUROC فيها ما يزيد عن 0.9. (انظر الشكل أدناه).

عند تحليل أكثر 20 نمطًا ظاهريًا شيوعًا ذات أعلى معدلات حدوث في الاختبارات الداخلية،يتفوق جهاز ميرلين في الكشف عن أمراض أجهزة الجسم المتعددة، بما في ذلك الكبد والكلى والحالبين والجهاز الهضمي.

في مهمة الاسترجاع عبر النماذج بدون تدريب مسبق، تتمثل الخطوة الأولى في مهمة استرجاع تعتمد على "اكتشاف الصور" مع 64 حالة.يُظهر برنامج Merlin مزايا كبيرة مقارنة ببرنامجي OpenCLIP و BioMedCLIP.يعود الفضل في ذلك إلى مُشفِّر النصوص Clinical Longformer المُستخدم في Merlin، بينما يسمح كلٌّ من OpenCLIP وBioMedCLIP بأطوال قصوى للرموز تبلغ 77 و256 على التوالي. في المقابل، تكرر الأداء الممتاز لـ Merlin أيضًا في مهمة استرجاع "الصور الاستكشافية" استنادًا إلى 64 حالة. انظر الشكل أدناه:

*تقييم الاسترجاع متعدد الوسائط بدون عينة*

والأهم من ذلك، أن برنامج ميرلين، حتى عند استخدام "النتائج" الموصوفة بموضوعية فقط في التقرير الخاص بتدريب التوافق بين اللغة واللغة البصرية،حتى عند التعامل مع "انطباعات" التقارير العامة للغاية، فإنها لا تزال تُظهر درجة عالية من القدرة على التعميم عبر المجالات.ثم جرى التحقق من النتائج مرة أخرى في مهمة هندسة عكسية. علاوة على ذلك، على الرغم من انخفاض أداء استرجاع البيانات لبرنامج ميرلين على مجموعة بيانات الاختبار الخارجية مقارنةً بمجموعة بيانات الاختبار الداخلية، إلا أنه ظل أفضل بمقدار 5 إلى 7 مرات من المعايير الخارجية الأخرى.

في مهمة التنبؤ بالأمراض المتعددة لمدة 5 سنوات، قيّمت التجربة تنبؤات ميرلين بمخاطر إصابة المرضى الأصحاء بأمراض مزمنة رئيسية متعددة على مدى السنوات الخمس المقبلة، بما في ذلك أمراض الكلى المزمنة، وهشاشة العظام، وأمراض القلب والأوعية الدموية، وأمراض القلب الإقفارية، وارتفاع ضغط الدم، ومرض السكري.

بعد ضبط Merlin واستخدام علامة 100% اللاحقة، وصلت قيمة AUROC الخاصة به للتنبؤ بحدوث المرض في غضون خمس سنوات إلى 0.757 (فترة الثقة لـ 95%، 0.743-0.772).هذا الأداء أعلى بمقدار 71 TP3T من نموذج ImageNet المدرب مسبقًا (I3D) الذي يستخدم الصور فقط.حتى باستخدام 101 تصنيفًا فقط من نوع TP3T، لا يزال مؤشر AUROC لنموذج Merlin للتنبؤ بحدوث المرض خلال خمس سنوات يصل إلى 0.708 (بفاصل ثقة 951 تصنيفًا من نوع TP3T، يتراوح بين 0.692 و0.723)، متفوقًا بذلك على نموذج ImageNet المدرب مسبقًا والذي بلغ 4.41 تصنيفًا من نوع TP3T. انظر الشكل أدناه:

فضلاً عن ذلك،حتى باستخدام 1/10 فقط من بيانات التدريب، فإن أداء التنبؤ الخاص بـ Merlin قابل للمقارنة بأداء نموذج ImageNet المدرب مسبقًا على 100% من البيانات.وهذا يدل بشكل كبير على قدرة Merlin على عدم الحاجة إلى أي تدريب مسبق وقدراتها القوية على نقل البيانات.

في مهمة إنشاء تقارير الأشعة، مقارنةً بالنموذج الأساسي RadFM، في الاختبارات القائمة على مقاييس كمية مثل RadGraph-F1 وBERT Score وROUGE-2 وBLEU،يتفوق برنامج Merlin على البرنامج السابق في جميع جوانب البنية المنطقية التشريحية ونتائج إعداد التقارير الكاملة.

من حيث الجودة، يُنتج برنامج ميرلين تقارير ممتازة تتميز بدقة عالية في التشخيص وتحديد موقع الأعراض ووصفها. مع ذلك، قد يُصدر ميرلين أحيانًا أحكامًا متحفظة، مثل حالات نقص الإبلاغ التي وُجدت في كلٍ من التقارير المُنشأة يدويًا وتقارير التصوير المقطعي المحوسب. ويعود ذلك إلى التجارب الأولية لتقارير الأشعة المُنشأة من فحوصات التصوير المقطعي المحوسب، وسيتم تحسينه بشكل أكبر مع زيادة جودة التقارير.

في مهمة التجزئة الدلالية ثلاثية الأبعاد، يتفوق Merlin على إطار عمل nnUNet بمقدار 4.71 TP3T في متوسط درجة Dice الكلية عند استخدام 101 TP3T فقط من بيانات التدريب؛ وعند استخدام 1001 TP3T من بيانات التدريب، يكون أداء إطار عمل nnUNet أفضل قليلاً من النموذج الأولي لـ Merlin، لكن الفرق في درجة Dice هو 0.006 فقط.

في 20 عضوًا في مجموعة الاختبار، حقق Merlin درجات Dice أعلى من إطار عمل nnUNet في 12 عضوًا عند تدريبه باستخدام بيانات 10%، مع تحسن يصل إلى 41% في تجزئة البروستاتا.

بالإضافة إلى ذلك، في تجارب التحقق الخارجية، قام فريق البحث بتقييم Merlin على ما مجموعه 44098 فحصًا بالأشعة المقطعية الخارجية باستخدام مجموعة بيانات تضم أكثر من 100000 فحص بالأشعة المقطعية الخارجية.يُظهر أداءً مستقرًا ودقيقًا عبر مواقع ومواقع تشريحية مختلفة، ويتغلب على اختلاف التوزيع بين مجموعة بيانات التدريب ومجموعة بيانات الاختبار الخارجية.علاوة على ذلك، فقد تفوق باستمرار على النماذج الأساسية الأخرى، بل وتفوق حتى على نماذج التصوير المقطعي المحوسب للصدر المتخصصة في مهام الصدر.

تُتيح نماذج اللغة المرئية الاستفادة من القيمة الكامنة للبيانات الطبية متعددة الوسائط واسعة النطاق.

إضافةً إلى هذه الدراسة، تتوالى الإنجازات الأخرى في نماذج اللغة البصرية في الطب. فعلى سبيل المثال، اقترح فريق بحثي من جامعة ستانفورد نموذجًا متعدد الوسائط مع نمذجة موحدة مُقنّعة (MUSK)، وهو نموذج أساسي للغة البصرية، ويهدف إلى دمج بيانات الصور والنصوص واسعة النطاق وغير المصنفة وغير المترابطة.

عنوان الورقة البحثية: نموذج أساسي للرؤية واللغة في علم الأورام الدقيق
عنوان الورقة:

https://www.nature.com/articles/s41586-024-08378-w

يُعالج نموذج KEEP، المُعزز بالمعرفة والمبني على الحالات، والذي اقترحته جامعة شنغهاي جياو تونغ وآخرون، مشكلة اعتماد النماذج الحالية بشكل أساسي على المناهج القائمة على البيانات، وافتقارها إلى دمج المعرفة الطبية بشكل صريح. يستخدم هذا النموذج مخططًا معرفيًا شاملًا للأمراض، يضم 11,454 مرضًا و139,143 سمة، لإعادة تنظيم ملايين أزواج الصور والنصوص المرضية في 143,000 مجموعة مُهيكلة دلاليًا، ومتوافقة مع التسلسل الهرمي لعلم الأمراض. تُوَحِّد هذه الطريقة المُعززة بالمعرفة للتدريب المُسبق التمثيلات المرئية والنصية في فضاء دلالي هرمي، مما يُتيح فهمًا عميقًا لعلاقات الأمراض والأنماط المورفولوجية.

عنوان الأطروحة: التدريب المسبق المعزز بالمعرفة لنموذج أساسي لعلم أمراض اللغة البصرية في تشخيص السرطان
عنوان الورقة:

https://www.sciencedirect.com/science/article/pii/S1535610826000589

باختصار، تُظهر نماذج اللغة المرئية، بقدراتها على الفهم متعدد الوسائط، إمكانات هائلة في مجالي الطب والأشعة. فهي قادرة على دمج الصور الطبية، ونصوص الحالات، والإرشادات السريرية لتحقيق تحديد ذكي للآفات، ومساعدة في تحليل الحالات، وإنشاء تقارير تشخيصية تلقائية. وهذا لا يزود الأطباء بأدوات مساعدة فعالة فحسب، بل يقدم أيضًا رؤى جديدة في التنبؤ بالأمراض، مما يُسرّع من تحوّل الطب الحديث من "الاعتماد على الخبرة" إلى "الاعتماد على البيانات".

استنادًا إلى 25000 نقطة بيانات سريرية، أصدرت جامعة ستانفورد أول نموذج لغة بصرية ثلاثي الأبعاد أصلي للتصوير المقطعي المحوسب للبطن، وهو Merlin، والذي يتفوق في 752 مهمة.

منذ 3 أشهر

نموذج الرؤية واللغة والفعل

أبرز الأبحاث:

عنوان الورقة:

https://www.nature.com/articles/s41586-026-10181-8
تابع حسابنا الرسمي على WeChat وأجب بكلمة "Merlin" في الخلفية للحصول على ملف PDF كامل.

سد فجوة البيانات اللازمة لتدريب وتقييم نماذج التعلم الافتراضي

* بيانات التصوير المقطعي المحوسب:

* تقرير الأشعة:

* السجل الصحي الإلكتروني:

تضمن استراتيجيات التعلم متعدد المهام والتدريب المرحلي والحلول المتباينة كفاءة عالية لشركة ميرلين.

أظهر تقييم شامل لـ 752 فئة من فئات المهام أن برنامج Merlin يتفوق على جميع البرامج الأخرى.

تُتيح نماذج اللغة المرئية الاستفادة من القيمة الكامنة للبيانات الطبية متعددة الوسائط واسعة النطاق.

عنوان الورقة البحثية: نموذج أساسي للرؤية واللغة في علم الأورام الدقيق
عنوان الورقة:

https://www.nature.com/articles/s41586-024-08378-w

https://www.sciencedirect.com/science/article/pii/S1535610826000589

استنادًا إلى 25000 نقطة بيانات سريرية، أصدرت جامعة ستانفورد أول نموذج لغة بصرية ثلاثي الأبعاد أصلي للتصوير المقطعي المحوسب للبطن، وهو Merlin، والذي يتفوق في 752 مهمة.

سد فجوة البيانات اللازمة لتدريب وتقييم نماذج التعلم الافتراضي

تضمن استراتيجيات التعلم متعدد المهام والتدريب المرحلي والحلول المتباينة كفاءة عالية لشركة ميرلين.

أظهر تقييم شامل لـ 752 فئة من فئات المهام أن برنامج Merlin يتفوق على جميع البرامج الأخرى.

تُتيح نماذج اللغة المرئية الاستفادة من القيمة الكامنة للبيانات الطبية متعددة الوسائط واسعة النطاق.

استنادًا إلى 25000 نقطة بيانات سريرية، أصدرت جامعة ستانفورد أول نموذج لغة بصرية ثلاثي الأبعاد أصلي للتصوير المقطعي المحوسب للبطن، وهو Merlin، والذي يتفوق في 752 مهمة.

سد فجوة البيانات اللازمة لتدريب وتقييم نماذج التعلم الافتراضي

تضمن استراتيجيات التعلم متعدد المهام والتدريب المرحلي والحلول المتباينة كفاءة عالية لشركة ميرلين.

أظهر تقييم شامل لـ 752 فئة من فئات المهام أن برنامج Merlin يتفوق على جميع البرامج الأخرى.

تُتيح نماذج اللغة المرئية الاستفادة من القيمة الكامنة للبيانات الطبية متعددة الوسائط واسعة النطاق.

ذات صلة الأخبار

مؤتمر ICLR 2026 | انخفاض بمقدار 125 ضعفًا في المعلمات القابلة للتدريب لكل مهمة! تساعد طريقة Task Tokens الجديدة الذكاء المجسد على تحسين قدرته على التعامل مع المهام المعقدة.

أصدرت MIT/IBM مجموعة بيانات ChartNet، وهي أكبر مجموعة بيانات للرسوم البيانية الاصطناعية حتى الآن، حيث أنتجت 1.5 مليون عينة متنوعة من الرسوم البيانية.

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

استنادًا إلى بيانات طيفية محاكاة لـ 2000 مادة من أشباه الموصلات، اقترح فريق معهد ماساتشوستس للتكنولوجيا DefectNet، والذي يمكنه تحليل ستة عيوب استبدال متعايشة.

استنادًا إلى 25000 نقطة بيانات سريرية، أصدرت جامعة ستانفورد أول نموذج لغة بصرية ثلاثي الأبعاد أصلي للتصوير المقطعي المحوسب للبطن، وهو Merlin، والذي يتفوق في 752 مهمة.

سد فجوة البيانات اللازمة لتدريب وتقييم نماذج التعلم الافتراضي

تضمن استراتيجيات التعلم متعدد المهام والتدريب المرحلي والحلول المتباينة كفاءة عالية لشركة ميرلين.

أظهر تقييم شامل لـ 752 فئة من فئات المهام أن برنامج Merlin يتفوق على جميع البرامج الأخرى.

تُتيح نماذج اللغة المرئية الاستفادة من القيمة الكامنة للبيانات الطبية متعددة الوسائط واسعة النطاق.

ذات صلة الأخبار

مؤتمر ICLR 2026 | انخفاض بمقدار 125 ضعفًا في المعلمات القابلة للتدريب لكل مهمة! تساعد طريقة Task Tokens الجديدة الذكاء المجسد على تحسين قدرته على التعامل مع المهام المعقدة.

أصدرت MIT/IBM مجموعة بيانات ChartNet، وهي أكبر مجموعة بيانات للرسوم البيانية الاصطناعية حتى الآن، حيث أنتجت 1.5 مليون عينة متنوعة من الرسوم البيانية.

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

استنادًا إلى بيانات طيفية محاكاة لـ 2000 مادة من أشباه الموصلات، اقترح فريق معهد ماساتشوستس للتكنولوجيا DefectNet، والذي يمكنه تحليل ستة عيوب استبدال متعايشة.

ذات صلة الأخبار

مؤتمر ICLR 2026 | انخفاض بمقدار 125 ضعفًا في المعلمات القابلة للتدريب لكل مهمة! تساعد طريقة Task Tokens الجديدة الذكاء المجسد على تحسين قدرته على التعامل مع المهام المعقدة.

أصدرت MIT/IBM مجموعة بيانات ChartNet، وهي أكبر مجموعة بيانات للرسوم البيانية الاصطناعية حتى الآن، حيث أنتجت 1.5 مليون عينة متنوعة من الرسوم البيانية.

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

استنادًا إلى بيانات طيفية محاكاة لـ 2000 مادة من أشباه الموصلات، اقترح فريق معهد ماساتشوستس للتكنولوجيا DefectNet، والذي يمكنه تحليل ستة عيوب استبدال متعايشة.

ذات صلة الأخبار

مؤتمر ICLR 2026 | انخفاض بمقدار 125 ضعفًا في المعلمات القابلة للتدريب لكل مهمة! تساعد طريقة Task Tokens الجديدة الذكاء المجسد على تحسين قدرته على التعامل مع المهام المعقدة.

أصدرت MIT/IBM مجموعة بيانات ChartNet، وهي أكبر مجموعة بيانات للرسوم البيانية الاصطناعية حتى الآن، حيث أنتجت 1.5 مليون عينة متنوعة من الرسوم البيانية.

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

استنادًا إلى بيانات طيفية محاكاة لـ 2000 مادة من أشباه الموصلات، اقترح فريق معهد ماساتشوستس للتكنولوجيا DefectNet، والذي يمكنه تحليل ستة عيوب استبدال متعايشة.

Command Palette

استنادًا إلى 25000 نقطة بيانات سريرية، أصدرت جامعة ستانفورد أول نموذج لغة بصرية ثلاثي الأبعاد أصلي للتصوير المقطعي المحوسب للبطن، وهو Merlin، والذي يتفوق في 752 مهمة.

سد فجوة البيانات اللازمة لتدريب وتقييم نماذج التعلم الافتراضي

تضمن استراتيجيات التعلم متعدد المهام والتدريب المرحلي والحلول المتباينة كفاءة عالية لشركة ميرلين.

أظهر تقييم شامل لـ 752 فئة من فئات المهام أن برنامج Merlin يتفوق على جميع البرامج الأخرى.

تُتيح نماذج اللغة المرئية الاستفادة من القيمة الكامنة للبيانات الطبية متعددة الوسائط واسعة النطاق.

Command Palette

استنادًا إلى 25000 نقطة بيانات سريرية، أصدرت جامعة ستانفورد أول نموذج لغة بصرية ثلاثي الأبعاد أصلي للتصوير المقطعي المحوسب للبطن، وهو Merlin، والذي يتفوق في 752 مهمة.

سد فجوة البيانات اللازمة لتدريب وتقييم نماذج التعلم الافتراضي

تضمن استراتيجيات التعلم متعدد المهام والتدريب المرحلي والحلول المتباينة كفاءة عالية لشركة ميرلين.

أظهر تقييم شامل لـ 752 فئة من فئات المهام أن برنامج Merlin يتفوق على جميع البرامج الأخرى.

تُتيح نماذج اللغة المرئية الاستفادة من القيمة الكامنة للبيانات الطبية متعددة الوسائط واسعة النطاق.

ذات صلة الأخبار

مؤتمر ICLR 2026 | انخفاض بمقدار 125 ضعفًا في المعلمات القابلة للتدريب لكل مهمة! تساعد طريقة Task Tokens الجديدة الذكاء المجسد على تحسين قدرته على التعامل مع المهام المعقدة.

أصدرت MIT/IBM مجموعة بيانات ChartNet، وهي أكبر مجموعة بيانات للرسوم البيانية الاصطناعية حتى الآن، حيث أنتجت 1.5 مليون عينة متنوعة من الرسوم البيانية.

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

استنادًا إلى بيانات طيفية محاكاة لـ 2000 مادة من أشباه الموصلات، اقترح فريق معهد ماساتشوستس للتكنولوجيا DefectNet، والذي يمكنه تحليل ستة عيوب استبدال متعايشة.

Command Palette

استنادًا إلى 25000 نقطة بيانات سريرية، أصدرت جامعة ستانفورد أول نموذج لغة بصرية ثلاثي الأبعاد أصلي للتصوير المقطعي المحوسب للبطن، وهو Merlin، والذي يتفوق في 752 مهمة.

سد فجوة البيانات اللازمة لتدريب وتقييم نماذج التعلم الافتراضي

تضمن استراتيجيات التعلم متعدد المهام والتدريب المرحلي والحلول المتباينة كفاءة عالية لشركة ميرلين.

أظهر تقييم شامل لـ 752 فئة من فئات المهام أن برنامج Merlin يتفوق على جميع البرامج الأخرى.

تُتيح نماذج اللغة المرئية الاستفادة من القيمة الكامنة للبيانات الطبية متعددة الوسائط واسعة النطاق.

ذات صلة الأخبار

مؤتمر ICLR 2026 | انخفاض بمقدار 125 ضعفًا في المعلمات القابلة للتدريب لكل مهمة! تساعد طريقة Task Tokens الجديدة الذكاء المجسد على تحسين قدرته على التعامل مع المهام المعقدة.

أصدرت MIT/IBM مجموعة بيانات ChartNet، وهي أكبر مجموعة بيانات للرسوم البيانية الاصطناعية حتى الآن، حيث أنتجت 1.5 مليون عينة متنوعة من الرسوم البيانية.

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

استنادًا إلى بيانات طيفية محاكاة لـ 2000 مادة من أشباه الموصلات، اقترح فريق معهد ماساتشوستس للتكنولوجيا DefectNet، والذي يمكنه تحليل ستة عيوب استبدال متعايشة.

ذات صلة الأخبار

مؤتمر ICLR 2026 | انخفاض بمقدار 125 ضعفًا في المعلمات القابلة للتدريب لكل مهمة! تساعد طريقة Task Tokens الجديدة الذكاء المجسد على تحسين قدرته على التعامل مع المهام المعقدة.

أصدرت MIT/IBM مجموعة بيانات ChartNet، وهي أكبر مجموعة بيانات للرسوم البيانية الاصطناعية حتى الآن، حيث أنتجت 1.5 مليون عينة متنوعة من الرسوم البيانية.

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

استنادًا إلى بيانات طيفية محاكاة لـ 2000 مادة من أشباه الموصلات، اقترح فريق معهد ماساتشوستس للتكنولوجيا DefectNet، والذي يمكنه تحليل ستة عيوب استبدال متعايشة.

ذات صلة الأخبار

مؤتمر ICLR 2026 | انخفاض بمقدار 125 ضعفًا في المعلمات القابلة للتدريب لكل مهمة! تساعد طريقة Task Tokens الجديدة الذكاء المجسد على تحسين قدرته على التعامل مع المهام المعقدة.

أصدرت MIT/IBM مجموعة بيانات ChartNet، وهي أكبر مجموعة بيانات للرسوم البيانية الاصطناعية حتى الآن، حيث أنتجت 1.5 مليون عينة متنوعة من الرسوم البيانية.

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

استنادًا إلى بيانات طيفية محاكاة لـ 2000 مادة من أشباه الموصلات، اقترح فريق معهد ماساتشوستس للتكنولوجيا DefectNet، والذي يمكنه تحليل ستة عيوب استبدال متعايشة.