HyperAIHyperAI

Command Palette

Search for a command to run...

ViT-V-Net: نموذج محول الرؤية للتسجيل غير المراقب للصور الطبية الحجمية

Junyu Chen Yufan He Eric C. Frey Ye Li Yong Du

الملخص

خلال العقد الماضي، سادت الشبكات العصبية التلافيفية (ConvNets) وحققت أداءً متقدماً في مجموعة متنوعة من التطبيقات الطبية المرئية. ومع ذلك، لا تزال أداءات ConvNets محدودة بسبب نقص فهم العلاقات المكانية على المدى الطويل داخل الصورة. وقد اقترح مؤخراً نموذج "مُحول الرؤية" (Vision Transformer - ViT) لتصنيف الصور، والذي يعتمد على نموذج خالص يعتمد على الانتباه الذاتي لتعلم العلاقات المكانية على المدى الطويل، بهدف التركيز على الأجزاء ذات الصلة في الصورة. ومع ذلك، يُولِّي ViT اهتماماً أكبر بالسمات منخفضة الدقة نظراً للانخفاض المتتالي في الدقة، مما يؤدي إلى نقص في معلومات التحديد الدقيق، ما يجعله غير مناسب لمهام التسجيل الصوري. ومؤخراً، تم دمج عدة طرق لتصنيف الصور المستندة إلى ViT مع ConvNets لتحسين استعادة معلومات التحديد الدقيق. مستوحاة من هذه الجهود، نقدم هنا نموذجاً يُسمى ViT-V-Net، الذي يربط بين ViT وConvNet لتوفير تسجيل صور طبية حجمية (Volumetric). وتُظهر النتائج التجريبية المقدمة هنا أن المعمارية المقترحة تحقق أداءً متفوّقاً مقارنة بعديد من الطرق الرائدة في تسجيل الصور.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp