HyperAIHyperAI
منذ 17 أيام

التحويلة البصرية ذات الدقة العالية متعددة المقياس للفصل الدلالي

Jiaqi Gu, Hyoukjun Kwon, Dilin Wang, Wei Ye, Meng Li, Yu-Hsin Chen, Liangzhen Lai, Vikas Chandra, David Z. Pan
التحويلة البصرية ذات الدقة العالية متعددة المقياس للفصل الدلالي
الملخص

لقد برزت نماذج التحول البصري (ViTs) بقدرات متفوقة مقارنة بنماذج الشبكات العصبية التلافيفية (CNN) في مهام الرؤية الحاسوبية. ومع ذلك، تم تصميم ViTs أساسًا لمهام تصنيف الصور، حيث تُنتج تمثيلات منخفضة الدقة بقياس واحد، ما يجعلها تواجه صعوبات في المهام التي تتطلب تنبؤات كثيفة مثل التجزئة الدلالية. ولذلك، نقترح نموذج HRViT، الذي يعزز ViTs لتمكينها من تعلّم تمثيلات متعددة المقاييس غنية بالدلالة ودقيقة مكانيًا، من خلال دمج هياكل متعددة الفروع ذات دقة عالية مع ViTs. ونوازن بين أداء النموذج وكفاءته في HRViT من خلال تقنيات متنوعة لتحسين التكامل بين الفروع والكتل. وبشكل خاص، نستكشف تصاميم فروع غير متجانسة، ونُقلل من التكرار في الطبقات الخطية، ونُحسّن كتلة الانتباه بزيادة قدرتها التعبيرية. وقد مكّنت هذه الأساليب HRViT من دفع حدود باريتو للأداء والكفاءة في التجزئة الدلالية إلى مستوى جديد، كما تُظهر نتائج تقييمنا على مجموعتي بيانات ADE20K وCityscapes. إذ حقق HRViT مقياس mIoU قدره 50.20% على ADE20K و83.16% على Cityscapes، متفوقًا على أفضل النماذج الحالية مثل MiT وCSWin، بتحسن متوسط قدره +1.78% في mIoU، مع توفير 28% من عدد المعلمات وخفض 21% من عدد العمليات الحسابية (FLOPs)، مما يُظهر الإمكانات الكبيرة لـ HRViT كنموذج أساسي قوي للرؤية الحاسوبية في مهام التجزئة الدلالية.

التحويلة البصرية ذات الدقة العالية متعددة المقياس للفصل الدلالي | أحدث الأوراق البحثية | HyperAI