HyperAIHyperAI
منذ 4 أشهر

SegViTv2: استكشاف الكفاءة والتقسيم الدلالي المستمر باستخدام المحولات البصرية البسيطة

Zhang, Bowen ; Liu, Liyang ; Phan, Minh Hieu ; Tian, Zhi ; Shen, Chunhua ; Liu, Yifan
SegViTv2: استكشاف الكفاءة والتقسيم الدلالي المستمر باستخدام
المحولات البصرية البسيطة
الملخص

يقوم هذا البحث بدراسة قدرة المتحولات البصرية البسيطة (ViTs) على تقسيم المعاني باستخدام إطار العمل المُشفر-المُفكك (الإنكودر-الديكودر) ويقدم \textbf{SegViTv2}. في هذه الدراسة، نقدم وحدة انتباه إلى القناع (\atm) جديدة لتصميم مُفكك خفيف الوزن فعال للمتحول البصري البسيط. تقوم الوحدة المقترحة ATM بتحويل الخريطة العالمية للانتباه إلى أقنعة معنوية لتحقيق نتائج تقسيم عالية الجودة. يتفوق مُفككنا على المُفكك الشائع UPerNet باستخدام مختلف أنواع المتحولات البصرية الخلفية بينما يستهلك فقط حوالي $5\%$ من التكلفة الحسابية. بالنسبة للمُشفر، نعالج مشكلة التكلفة الحسابية النسبيّة العالية في المُشفرين المستندين إلى ViT ونقترح بنية \emph{Shrunk++} التي تدمج تقليص الاستعلامات القائم على الحواف (EQD) ووحدات زيادة الاستعلامات (QU). تقلل بنية Shrunk++ من التكلفة الحسابية للمُشفر بنسبة تصل إلى $50\%$ مع الحفاظ على أداء تنافسي. علاوة على ذلك، نقترح تكييف SegViT للتقسيم الدلالي المستمر، مما يظهر نسيانًا شبه معدوم للمعرفة السابقة. تظهر التجارب أن SegViTv2 المقترح يتفوق على طرق التقسيم الحديثة في ثلاثة مقاييس شائعة تشمل مجموعات البيانات ADE20k، COCO-Stuff-10k و PASCAL-Context. يمكن الحصول على الكود من خلال الرابط التالي: \url{https://github.com/zbwxp/SegVit}.