HyperAIHyperAI
منذ 17 أيام

Transformer بصرية مع إعادة بارامترization (ReVT) للتقسيم الدلالي العام للنطاق

Jan-Aike Termöhlen, Timo Bartels, Tim Fingscheidt
Transformer بصرية مع إعادة بارامترization (ReVT) للتقسيم الدلالي العام للنطاق
الملخص

تتطلب مهمة التجزئة الدلالية من النموذج تعيين علامات دلالية لكل بكسل في الصورة. ومع ذلك، تتناقص أداء هذه النماذج عند نشرها في مجال غير مرئى يختلف فيه توزيع البيانات عن مجال التدريب. نقدّم نهجًا جديدًا يعتمد على التكبير (augmentation) لتحسين التعميم على المجال في التجزئة الدلالية، باستخدام نموذج نقل بصري معاد إعادة تشكيله (ReVT) مع متوسط الأوزان لعدة نماذج بعد التدريب. وقد قُمنا بتقييم منهجنا على عدة مجموعات بيانات معيارية، وحققنا أداءً متفوقًا على مستوى المقياس (mIoU) بـ 47.3% (مقارنةً بالتقنية السابقة التي بلغت 46.3%) بالنسبة للنماذج الصغيرة، و50.1% (مقارنةً بالتقنية السابقة التي بلغت 47.8%) بالنسبة للنماذج المتوسطة الحجم على مجموعات البيانات المعيارية الشائعة الاستخدام. وفي الوقت نفسه، يتطلب منهجنا عددًا أقل من المعاملات (البارامترات)، ويحقق معدل إطار أعلى مقارنةً بأفضل التقنيات السابقة. كما أن تنفيذه سهل، ولا يضيف أي تعقيد حسابي أثناء الاستدلال، على عكس تجميع الشبكات (network ensembles).