HyperAI

تم تحسين الدقة بواسطة 5.2%، وأصدرت NVIDIA وشركات أخرى نموذجًا متعدد الوسائط لتجزئة الصور الطبية لتحقيق التجزئة التلقائية والتفاعل بين الصور ثلاثية الأبعاد

特色图像

منذ ظهور أول جهاز تصوير مقطعي محوسب سريري في عام 1971، شهد التصوير الطبي قفزة ثورية من الشرائح ثنائية الأبعاد إلى الصور المجسمة ثلاثية الأبعاد. يمكن لتقنية التصوير المقطعي الحلزوني الحديثة المكونة من 256 صفًا جمع بيانات مسح الجسم بالكامل بسمك طبقة يبلغ 0.16 مم في 0.28 ثانية، كما يمكن للتصوير بالرنين المغناطيسي عالي المجال 7T التقاط الاتجاه المجهري للألياف العصبية في الحُصين. ومع ذلك، عندما يتم عرض هذه المصفوفات ثلاثية الأبعاد التي تحتوي على عشرات الملايين من وحدات البكسل على الأطباء، فإن مهمة تقسيم الأعضاء والآفات والشبكات الوعائية بدقة لا تزال تعتمد بشكل كبير على التخطيط اليدوي لكل طبقة على حدة. أظهرت الدراسات أن تقسيم الكبد لمجموعة نموذجية من صور الأشعة المقطعية للبطن يستغرق ما بين 45 إلى 90 دقيقة، في حين أن شرح تخطيط العلاج الإشعاعي الذي يتضمن ربط أعضاء متعددة قد يستغرق أكثر من 8 ساعات.يمكن أن يصل معدل الخطأ الحدودي الناجم عن التعب البصري للمحترفين إلى 12%.

وقد أدت هذه المعضلة إلى ظهور مسار الابتكار الأكثر نشاطًا في مجال تحليل الصور الطبية. من خوارزمية النمو الإقليمي المبكرة القائمة على عتبة التدرج الرمادي، إلى متغير V-Net ثلاثي الأبعاد لـ U-Net الذي يدمج التعلم العميق، إلى بنية TransUNet الهجينة التي تقدم المحول المرئي، كان مهندسو الخوارزميات يحاولون باستمرار بناء أنظمة ملاحة ذكية في متاهة البكسل. أظهرت أحدث الاختراقات من مؤتمر MICCAI لعام 2024 أن بعض النماذج حققت اتساقًا بين المجموعات مماثلًا لما حققه أخصائيو الأشعة ذوي الخبرة في مهام تقسيم البروستاتا، لكن أداءهم في حالات التباين التشريحي النادرة لا يزال يتقلب بشكل كبير. وهذا يكشف عن اقتراح فلسفي تكنولوجي أعمق: عندما يحاول الذكاء الاصطناعي فهم جسم الإنسان، ما مقدار المعرفة المسبقة المطلوبة، وما مقدار البصيرة التشريحية التي يمكنه توليدها والتي تتجاوز الإدراك البشري؟

في الآونة الأخيرة، نشر فريق متعدد التخصصات يتكون من شركة NVIDIA وجامعة أركنساس للعلوم الطبية والمعاهد الوطنية للصحة وجامعة أكسفورد نتيجة بحثية رائدة: نموذج تقسيم الصور الطبية متعدد الوسائط VISTA3D.كان هذا النموذج رائداً في طريقة استخراج ميزات الفائق فوكسل ثلاثي الأبعاد.من خلال بنية موحدة، فإنه يحقق التحسين التعاوني للتجزئة التلقائية ثلاثية الأبعاد (تغطي 127 بنية تشريحية) والتجزئة التفاعلية. في اختبار معياري شامل يحتوي على 14 مجموعة بيانات، فإنه يحقق التجزئة التلقائية ثلاثية الأبعاد الأكثر تقدمًا والتحرير التفاعلي، ويحسن أداء العينة الصفرية بواسطة 50%.

نتائج البحث ذات الصلة تحمل عنوان "VISTA3D: نموذج أساس التوزيع الموحد للتصوير الطبي ثلاثي الأبعاد" وقد تم نشرها كنسخة أولية على arXiv.


عنوان الورقة:
https://doi.org/10.48550/arxiv.2406.05285

التحولات والتحديات النموذجية في تكنولوجيا التصوير الطبي ثلاثي الأبعاد

في الموجة الرقمية لتحليل الصور الطبية، تشهد تقنية التجزئة التلقائية ثلاثية الأبعاد تحولاً نموذجياً من "المتخصص" إلى "الطبيب العام". تعتمد الطرق التقليدية على بناء شبكات مخصصة واستراتيجيات تدريب مخصصة لإنشاء نماذج خبراء مستقلة لكل بنية تشريحية أو نوع من الأمراض. على الرغم من أن هذا النموذج يعمل بشكل جيد في مهام محددة، إلا أنه يشبه مطالبة أخصائي الأشعة بتلقي تدريب متكرر على تشخيص عضو واحد.عند مواجهة فحص التصوير المقطعي المحوسب لكامل الجسم والذي يحتوي على 127 بنية تشريحية، يحتاج النظام إلى تشغيل العشرات من النماذج بالتوازي، وينمو استهلاكه لموارد الحوسبة وتعقيد تكامل النتائج بشكل كبير.

والأمر الأكثر أهمية هو أن ما يزعج الأطباء في الممارسة السريرية في كثير من الأحيان هو تلك الحالات النادرة التي تكسر الأطلس التشريحي القياسي: فقد تكون بؤر تكلس نانوية تم اكتشافها حديثًا في كبد الفئران التجريبية، أو أشكال غير تقليدية للأوعية الدموية تشكلت بسبب الاختلافات التشريحية في مرضى زراعة الأعضاء. وتكشف هذه السيناريوهات عن عيوب أساسية في النظام الحالي:إن الاعتماد المفرط على الفئات المحددة مسبقًا والتدريب المغلق يجعل من الصعب على النموذج تعلم العينات الصفرية والتكيف مع المجالات المفتوحة.


إن فجر التقدم في هذه المعضلة يأتي من مجال معالجة الصور الطبيعية. عندما أظهرت نماذج اللغة الكبيرة قدرات تعميم مذهلة عبر المهام، بدأ مجتمع التصوير الطبي في استكشاف بناء أنظمة ذكية "محادثة". يحقق نموذج SAM (نموذج تقطيع أي شيء) الذي اقترحته شركة Meta التفاعل الثوري المتمثل في "النقر للتقطيع" في الصور ثنائية الأبعاد، كما أن أداءه في العينة الصفرية يتفوق حتى على بعض النماذج الاحترافية. ولكن عند نقل هذا النموذج إلى مجال الطب ثلاثي الأبعاد، يواجه التوسع الأبعادي البسيط تحديات أساسية: فالتعقيد الطوبولوجي للأعضاء البشرية في عمليات المسح المقطعي المستمر بعيد كل البعد عن المقارنة بتعقيد مركبة متحركة في مقطع فيديو.

على سبيل المثال، إذا أخذنا تقسيم الكبد، فقد يتواجد انقسام الوريد البابي، وتسلل الورم، وقطع أثرية معدنية للمشبك الجراحي في وقت واحد بين الشرائح المتجاورة، الأمر الذي يتطلب من النموذج أن يتمتع بقدرات حقيقية على التفكير المكاني ثلاثي الأبعاد بدلاً من تتبع السلسلة الزمنية البسيطة. في السابق، حاول الباحثون جعل بنية SAM ثلاثية الأبعاد وشكلوا أنظمة SAM2 وSAM3D. وعلى الرغم من التقدم الذي تم إحرازه في مهام مثل تتبع الأوعية الدموية،ومع ذلك، فإن معامل النرد الخاص به لا يزال أقل بنسبة 9-15 نقطة مئوية من معامل النموذج الاحترافي.يزداد معدل الخطأ بشكل كبير خاصة عند التعامل مع مناطق متداخلة من أعضاء متعددة.

ويكمن التناقض الأعمق في الطبيعة الفريدة التي تعتمد عليها البيانات الطبية في اعتمادها على المعرفة. عندما يمكن لتجزئة الصورة الطبيعية أن تعتمد على ميزات إحصائية على مستوى البكسل،يجب أن يدمج تحليل الصور الطبية المعرفة التشريحية السابقة.على سبيل المثال، لا يتطلب تقسيم البنكرياس تحديد السمات الرمادية فحسب، بل يتطلب أيضًا فهم قربه التشريحي من الاثني عشر. وقد أدى هذا إلى ظهور نموذج جديد للتعلم القائم على السياق: توجيه النموذج للتكيف مع الفئات الجديدة من خلال إدخال صور نموذجية أو أوصاف نصية.

ومع ذلك، فإن المشاكل التي كشفت عنها الأنظمة الحالية أثناء الاختبار مثيرة للسخرية إلى حد كبير: إن مطالبة الأطباء بتقديم تعليقات توضيحية عالية الجودة يتعارض في حد ذاته مع النية الأصلية للتجزئة الآلية؛ وقد يؤدي تحيز المحاذاة الدلالية الموجهة بالنص إلى التعرف بشكل خاطئ على سرطان القناة الصفراوية الهيليري باعتباره بنية وعائية طبيعية. تعكس مفارقة هذا المسار التقني الاقتراح الأساسي في تطوير الذكاء الاصطناعي الطبي:قد يكون من العملي أكثر من مجرد متابعة أداء الخوارزمية إيجاد توازن ديناميكي بين التكيف مع المجال المفتوح والسلامة السريرية.

VISTA3D: نموذج تقسيم موحد للتصوير الطبي ثلاثي الأبعاد

من أجل اختراق القيود النموذجية لتحليل الصور الطبية ثلاثية الأبعاد،قام فريق البحث في NVIDIA ببناء بنية مبتكرة تجمع بين مزايا التدريب المسبق ثنائي الأبعاد مع الخصائص التشريحية ثلاثية الأبعاد - نموذج VISTA3D.كما هو موضح في الشكل أدناه، إذا كانت مهمة التجزئة X تنتمي إلى الفئات الـ 127 المدعومة (الدوائر الخضراء على اليسار)، فسوف يقوم VISTA3D بإجراء التجزئة التلقائية (Auto-seg) بدقة عالية. يمكن للأطباء مراجعة النتائج وتحريرها بكفاءة باستخدام VISTA3D عند الحاجة. إذا كانت X عبارة عن فئة جديدة (دائرة زرقاء على اليمين)، فسوف يقوم VISTA3D بتنفيذ تجزئة تفاعلية ثلاثية الأبعاد بدون لقطة.

سير العمل الكامل لبرنامج VISTA3D

خاصة،يعتمد نموذج VISTA3D على مفهوم التصميم المعياري ويبني جوهر تقسيم ثلاثي الأبعاد يعتمد على SegResNet، والذي تم التحقق منه على نطاق واسع في مجال التصوير الطبي.لقد أثبت هذا الهيكل الشبكي على شكل حرف U أداءً ممتازًا في تحديات التجزئة الدولية المعتمدة مثل BraTS 2023. وكما هو موضح في الشكل أدناه، إذا قدم المستخدم مطالبة فئة تنتمي إلى الفئات الـ 127 المدعومة، فإن الفرع التلقائي في الأعلى سينشط وظيفة التقسيم التلقائي خارج الصندوق. إذا قدم المستخدم مطالبات نقطة ثلاثية الأبعاد، فسوف يقوم الفرع التفاعلي في الأسفل بتنشيط وظيفة التجزئة التفاعلية. إذا تم تنشيط كلا الفرعين، فستستخدم وحدة الدمج القائمة على الخوارزمية النتائج التفاعلية لتحرير النتائج التلقائية.

هندسة VISTA3D

ومن بينها، يستخدم الفرع الآلي تقنية الترميز الذكية لإدارة 127 بنية في جسم الإنسان. عندما يكون من الضروري تحديد جزء معين، سيقوم النظام بمطابقة معلومات الميزة في الصورة الممسوحة ضوئيًا بدقة وإنشاء نتيجة التجزئة من خلال التحويل الذكي.يوفر هذا التصميم موارد ذاكرة 60% مقارنة بالطرق التقليدية ويمكنه أيضًا تجنب تحيز التعلم الناجم عن التعليقات التوضيحية غير المكتملة.تستخدم وحدة التصحيح اليدوي تقنية تحديد موضع النقر ثلاثي الأبعاد: أولاً استعادة تفاصيل الصورة ثم تحسين سرعة المعالجة. سيتم تحويل الموقع الذي ينقر عليه الطبيب إلى إحداثيات مكانية وربطه بذكاء بميزات المسح. عند مواجهة هياكل يمكن الخلط بينها بسهولة مثل البنكرياس والأورام، سيقوم النظام تلقائيًا بإضافة علامات مميزة.


يتم تحقيق التعديل الدقيق للوحدتين من خلال التعاون الذكي. ستؤثر عملية التصحيح فقط على المنطقة المحلية المتصلة بموضع النقر، تمامًا مثل استخدام مشرط دقيق لتعديل جزء معين دون تدمير نتيجة التجزئة الإجمالية.يعمل حل التحسين ثلاثي الأبعاد هذا على تحسين كفاءة التصحيح لدى الأطباء من خلال 40%.خلال مرحلة تدريب النموذج، قام فريق البحث أيضًا بدمج 11454 مجموعة بيانات فحص التصوير المقطعي المحوسب، واعتمد آلية إنشاء علامات زائفة في إطار التعلم شبه الخاضع للإشراف، ودمجها مع استراتيجية تدريب تدريجية من أربع مراحل. لقد قاموا أولاً بالتدريب المسبق على مجموعة بيانات مختلطة (بما في ذلك العلامات الزائفة وتعليقات التوضيح الفائقة للفوكسل)، ثم قاموا بضبط التجزئة التلقائية ومهام التصحيح التفاعلية على التوالي، وأخيرًا حققوا التكامل الوظيفي من خلال التدريب المشترك. وفي نهاية المطاف، نجح نموذج VISTA3D في تحقيق قفزات تكنولوجية متعددة من خلال الابتكارات الأساسية.

أولاً، تم التحقق من صحة النموذج بشكل منهجي على 14 مجموعة بيانات عامة دولية، تغطي 127 نوعًا من الهياكل التشريحية والسمات المرضية.دقة التجزئة التلقائية ثلاثية الأبعاد (معامل النرد 0.91±0.05) أعلى بـ 8.3% من النموذج الأساسي التقليدي.كما أنه يدعم التصحيح التفاعلي القائم على النقر، مما يقلل الوقت المطلوب للتصحيح اليدوي إلى 1/3 من الطريقة التقليدية. ثانيًا، حققت تقنية نقل ميزات الفائق فوكسل ثلاثي الأبعاد الأولى، عن طريق فصل الميزات المكانية لشبكة العمود الفقري المدربة مسبقًا ثنائية الأبعاد، تحسنًا قدره 50% mIoU في المهام ذات اللقطة الصفرية مثل تقسيم البنكرياس.كفاءة وضع العلامات أعلى بـ 2.7 مرة من كفاءة التعلم الخاضع للإشراف.بالإضافة إلى ذلك، قام فريق البحث أيضًا ببناء مجموعة بيانات متعددة الوسائط عبر المؤسسات.مع الحفاظ على دقة التعليق التوضيحي 97.2%، يتم ضغط تكلفة التعليق التوضيحي للبيانات إلى 15% من التعليق التوضيحي اليدوي الكامل.

تقدم الأبحاث حول دمج التصوير الطبي ثلاثي الأبعاد والذكاء الاصطناعي في الصين

في السنوات الأخيرة، مع التطبيق الواسع النطاق لتكنولوجيا الذكاء الاصطناعي في المجال الطبي، أصبح الجمع بين تكنولوجيا التصوير الطبي ثلاثي الأبعاد والذكاء الاصطناعي تدريجيًا نقطة ساخنة للبحث وحقق تقدمًا كبيرًا في الصين، مما جلب فرصًا جديدة للتشخيص والعلاج الطبي.

في عام 2023، سوف يركز تطبيق الذكاء الاصطناعي في التصوير الطبي بشكل أساسي على التشخيص المساعد. يمكن للذكاء الاصطناعي أن يقوم بفحص مجموعات البيانات الضخمة من الصور ومعلومات المرضى بسرعة لتحسين كفاءة التشخيص. على سبيل المثال، يمكن لبعض أنظمة التصوير المتكاملة مع الذكاء الاصطناعي اكتشاف تشوهات صغيرة يصعب تحديدها بالعين المجردة، وبالتالي تحسين دقة التشخيص. بالإضافة إلى ذلك، يمكن للذكاء الاصطناعي استرجاع عمليات المسح التصويري السابقة من السجل الطبي الإلكتروني للمريض ومقارنتها بأحدث عملية مسح، مما يوفر للأطباء معلومات تشخيصية أكثر شمولاً. على سبيل المثال،اقترحت جامعة شنغهاي جياو تونغ نموذج عمل جديد PnPNet لتجزئة الصور الطبية ثلاثية الأبعاد.يتم حل مشكلة ارتباك الحدود بين الطبقات من خلال نمذجة ديناميكيات التفاعل بين مناطق الحدود المتقاطعة والمناطق المجاورة لها. الأداء هو SOTA، متفوقًا على الشبكات مثل MedNeXt وSwin UNETR وnnUNet.

* عنوان الورقة:

https://arxiv.org/abs/2312.08323

في عام 2024، سيصبح التكامل بين تقنية التصوير الطبي ثلاثي الأبعاد والذكاء الاصطناعي أقرب، وستصبح اتجاهات البحث أكثر تنوعًا. من ناحية أخرى، نضج تطبيق تقنية الذكاء الاصطناعي في إعادة بناء الصور الطبية ثلاثية الأبعاد تدريجيًا، ويمكنها إجراء تقسيم وإعادة بناء الصور ثلاثية الأبعاد تلقائيًا، مما يحسن دقة وكفاءة إعادة بناء الصورة. ومن ناحية أخرى، تم أيضًا تحسين قدرات الذكاء الاصطناعي في تحليل الصور بشكل أكبر، مما يمكن أن يساعد الأطباء في تشخيص الأمراض ووضع خطط العلاج. بالإضافة إلى ذلك، يتم تطبيق تقنية الذكاء الاصطناعي أيضًا على معالجة الصور لاحقًا، مثل إزالة الضوضاء، والتحسين، والتقديم، لتحسين قابلية قراءة الصور وجمالياتها. على سبيل المثال،قام مستشفى غرب الصين التابع لجامعة سيتشوان بتطوير نظام مبتكر للإبلاغ عن عقيدات الرئة الصينية والبيانات (C-Lung-RADS) يعتمد على مجموعة فحص سرطان الرئة للسكان الصينيين ومجموعة سريرية لعقيدات الرئة.تم التوصل إلى تصنيف دقيق وإدارة شخصية لمخاطر الإصابة بالأورام الخبيثة في عقيدات الرئة.
* عنوان الورقة:

https://www.nature.com/articles/s41591-024-03211-3

بحلول عام 2025، سيكون تطبيق تكنولوجيا الذكاء الاصطناعي في التصوير الطبي ثلاثي الأبعاد أكثر شمولاً وعمقًا. على سبيل المثال،أطلق فريق بحثي من جامعة بكين مؤخرًا "مشروع مجموعة التصوير الكلوي" على المستوى الدولي.ومن المقرر أن نتولى زمام المبادرة في بناء خريطة رقمية للكلية بأكملها من خلال تقنية التصوير المتعدد الوسائط وخوارزميات الذكاء الاصطناعي. يمكن لهذه "الكلى الرقمية" أن تجعل آلية مرض الكلى أكثر وضوحًا، وتوفر اتجاهًا جديدًا للتشخيص الدقيق، وتطوير الأدوية الجديدة، والعلاج الدقيق لأمراض الكلى.

في نفس الوقت،اقترح فريق من جامعة الصين للعلوم الجيولوجية وبايدو إطارًا عامًا مشتركًا يسمى ConDSeg لتجزئة الصور الطبية المعتمدة على التباين.يقدم هذا الإطار بشكل مبتكر استراتيجية تدريب تعزيز الاتساق، ووحدة فصل المعلومات الدلالية، ووحدة تجميع الميزات المعتمدة على التباين، وفك التشفير المدرك للحجم، وبالتالي تحسين دقة نموذج تقسيم الصور الطبية بشكل أكبر.
* عنوان الورقة:

https://arxiv.org/abs/2412.08345

ولم يقتصر الأمر على ذلك فحسب، بل اقترحت جامعة كونمينغ للعلوم والتكنولوجيا وجامعة المحيط الصينية طريقة دمج الصور الطبية غير المحاذية ثنائية الاتجاه (BSFA). بالمقارنة مع الطرق التقليدية، تعمل هذه الدراسة على محاذاة ودمج الصور الطبية متعددة الوسائط غير المحاذية في وقت واحد من خلال نهج من مرحلة واحدة ضمن إطار معالجة موحد، والذي لا يحقق تنسيق المهام المزدوجة فحسب، بل يقلل أيضًا بشكل فعال من مشكلة تعقيد النموذج الناجم عن إدخال العديد من برامج ترميز الميزات المستقلة.
* عنوان الورقة:

https://doi.org/10.48550/arXiv.2412.08050

ومع ذلك، فإن الأبحاث المتعلقة بدمج تقنية التصوير الطبي ثلاثي الأبعاد مع الذكاء الاصطناعي تواجه أيضًا بعض التحديات. وتظل قضايا مثل خصوصية البيانات، وشفافية الخوارزميات، والقدرة على تعميم النماذج، والإشراف التنظيمي، قضايا رئيسية تحتاج إلى معالجة. وفي المستقبل، مع التقدم المستمر للتكنولوجيا وتحسين اللوائح، قد يتم حل هذه المشاكل تدريجياً، وبالتالي تعزيز التطبيق الأوسع لتكنولوجيا الذكاء الاصطناعي في مجال التصوير الطبي.