HyperAIHyperAI
منذ 17 أيام

VPNeXt — إعادة التفكير في التشفير الكثيف للتحويلة البصرية العادية

Xikai Tang, Ye Huang, Guangqiang Yin, Lixin Duan
VPNeXt — إعادة التفكير في التشفير الكثيف للتحويلة البصرية العادية
الملخص

نقدّم نموذج VPNeXt، نموذجًا جديدًا وبسيطًا للنموذج القياسي لمحول الرؤية (Plain Vision Transformer أو ViT). على عكس العديد من الدراسات المرتبطة التي تتبع نفس النماذج المتجانسة، يقدّم VPNeXt منظورًا جديدًا للتمثيل الكثيف القائم على ViT. وبشكل أدق، يعالج النموذج المقترح VPNeXt قَلَقَيْنِ حول النموذج الحالي: (1) هل من الضروري استخدام بنية معقدة لـ "مُفكِّك قناع المحول" (Transformer Mask Decoder) للحصول على تمثيلات جيدة؟ (2) هل يحتاج بالفعل ViT القياسي إلى الاعتماد على ميزات الهرم الوهمي (mock pyramid feature) لعملية التكبير (upsampling)؟ بالنسبة للنقطة (1)، قمنا بدراسة الأسباب الكامنة وراء فعالية مُفكِّك المحول، وتم تقديم تقنية "إعادة تشغيل السياق البصري" (Visual Context Replay أو VCR) لتحقيق آثار مشابهة بشكل فعّال. أما بالنسبة للنقطة (2)، فقد أدخلنا وحدة ViTUp، التي تستغل بالكامل الميزات الهرمية الحقيقية لمحول الرؤية (ViT real pyramid feature) التي لم تُؤخذ بعين الاعتبار سابقًا، مما يُحقّق نتائج تكبير أفضل مقارنةً بالميزات الهرمية الوهمية السابقة. ويشكّل هذا أول مثال في مجال التصنيف الدلالي (semantic segmentation) لمحول الرؤية القياسي (Plain ViT) على هذه الوظيفة. قمنا بدراسات تحليلية (ablation studies) على الوحدات ذات الصلة لتأكيد فعاليتها تدريجيًا. كما أجرينا تجارب مقارنة وتصورات بصرية تُظهر أن VPNeXt حقق أداءً من الدرجة الأولى (state-of-the-art) بتصميم بسيط وفعّال. علاوةً على ذلك، تفوّق VPNeXt بشكل كبير على الحدّ التقليدي (الجدار أو الحدّ) لמדד mIoU الخاص بمجموعة بيانات VOC2012، مُسجّلًا أفضل أداء جديد بفارق كبير، وهو أيضًا أكبر تحسن مُسجّل منذ عام 2015.

VPNeXt — إعادة التفكير في التشفير الكثيف للتحويلة البصرية العادية | أحدث الأوراق البحثية | HyperAI