HyperAIHyperAI
منذ 8 أيام

DAFormer: تحسين هياكل الشبكة واستراتيجيات التدريب للتصنيف الدلالي التكيفي للنطاق

Lukas Hoyer, Dengxin Dai, Luc Van Gool
DAFormer: تحسين هياكل الشبكة واستراتيجيات التدريب للتصنيف الدلالي التكيفي للنطاق
الملخص

نظرًا لأن الحصول على تسميات حسب البكسل للصور الواقعية لغرض التصنيف الشمولي يُعد عملية مكلفة، يمكن بدلًا من ذلك تدريب نموذج باستخدام بيانات مُصَنَّعة أكثر سهولة في الوصول إليها، ثم تكييفه للصور الواقعية دون الحاجة إلى تسمياتها. يُدرس هذا الإجراء في تكييف المجال غير المراقب (UDA). وعلى الرغم من أن عددًا كبيرًا من الطرق تُقدّم استراتيجيات تكييف جديدة، إلا أنها تعتمد في معظمها على هياكل شبكات قديمة. وبما أن تأثير الهياكل الشبكية الحديثة لم يُدرَس بشكل منهجي حتى الآن، فقد قمنا أولًا بإجراء مقارنة بين هياكل شبكات مختلفة لـ UDA، وكشفنا حديثًا عن الإمكانات الكامنة لشبكات Transformer في التصنيف الشمولي لـ UDA. استنادًا إلى هذه النتائج، نقترح طريقة جديدة لـ UDA تُسمى DAFormer. تتكون البنية المعمارية لـ DAFormer من معالج Transformer ومشفر متعدد المستويات يعتمد على دمج السياق في الميزات. وتمكّن هذه البنية من ثلاث استراتيجيات تدريب بسيطة ولكنها حاسمة لاستقرار التدريب وتقليل الارتباط الزائد بالنموذج المُدرَّب مسبقًا (النطاق المصدري): (1) استخدام عينة الفئات النادرة في النطاق المصدري يُحسّن جودة التسميات الوهمية من خلال تقليل التحيز التأكيدية في عملية التدريب الذاتي تجاه الفئات الشائعة، (2) استخدام مسافة الميزات من ImageNet للفئات ذات الأشياء (Thing-Class ImageNet Feature Distance)، و(3) استخدام تدفئة معدل التعلم (learning rate warmup) يُعززان نقل الميزات من التدريب المسبق على ImageNet. تمثل DAFormer تقدمًا كبيرًا في مجال UDA، حيث تحسّن الحالة الراهنة بنسبة 10.8 نقطة mIoU في مهمة GTA إلى Cityscapes، و5.4 نقطة mIoU في مهمة Synthia إلى Cityscapes، وتمكّن التعلم حتى للصفوف الصعبة مثل القطار، والحافلة، والشاحنة. يمكن الوصول إلى التنفيذ العملي عبر الرابط: https://github.com/lhoyer/DAFormer.