HyperAIHyperAI

Command Palette

Search for a command to run...

التكبير الأقصى مع متحولات الرؤية يوفق بين الفئة والشكل في التجزئة الدلالية شبه المشرفة

Simone Rossetti; Damiano Zappia; Marta Sanzari; Marco Schaerf; Fiora Pirri

الملخص

بحث التجزئة الدلالية شبه المُشرف (WSSS) في العديد من الاتجاهات لتحسين الأنبوب النموذجي المكون من الشبكة العصبية المتكررة (CNN) زائد خرائط تنشيط الفئات (CAM) زائد التحسينات، مع إعطاء تصنيف الصورة كإشراف وحيد. رغم أن الفجوة مع الطرق المُشرفة بالكامل قد تقلصت، يبدو أن مزيدًا من الحد منها سيكون صعبًا ضمن هذا الإطار. من ناحية أخرى، لم تستكشف طرق WSSS المستندة إلى متحولات الرؤية (ViT) بدائل صالحة لـ CAM بعد. أظهرت خصائص ViT أنها تحتفظ بتصميم المشهد وحدود الأشياء في التعلم الذاتي المُشرف. للتحقق من هذه النتائج، نثبت أن مزايا المتحولات في الطرق الذاتيّة المُشرفة تقوى أكثر باستخدام التجميع الأقصى العالمي (GMP)، الذي يمكنه الاستفادة من خصائص البِطَاقات لمناقشة احتمالية تسمية البكسل مع احتمالية الفئة. يقترح هذا العمل طريقة جديدة في WSSS تُعرف باسم ViT-PCM (ViT Patch-Class Mapping)، والتي لا تعتمد على CAM. تقوم الشبكة المعروضة بشكل كامل بالتعلم عبر عملية واحدة مُحسّنة، مما يؤدي إلى تشكيل دقيق وتوضع صحيح للأقنعة التجزيعية. حقق نموذجنا أفضل النتائج مقارنة بأحدث الأساليب على أقنعة الوهم الأساسية (BPM)، حيث حصلنا على نسبة تقاطع فوق الاتحاد 69.3%69.3\%69.3% على مجموعة اختبار PascalVOC 2012 valvalval. نوضح أن نهجنا يتميز بأقل مجموعة من المعلمات، ومع ذلك يحقق دقة أعلى من جميع الأساليب الأخرى. باختصار، تكشف النتائج الكمية والنوعية لطريقتنا أن ViT-PCM هو بديل ممتاز للهياكل المستندة إلى CNN-CAM.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp