Command Palette
Search for a command to run...
TransAdapter: نموذج Vision Transformer للتكيف غير المراقب المركّز حول الميزات
TransAdapter: نموذج Vision Transformer للتكيف غير المراقب المركّز حول الميزات
A. Enes Doruk Erhan Oztop Hasan F. Ates
الملخص
تهدف التكيف غير المراقب للنطاق (UDA) إلى استغلال البيانات المُعلَّمة من نطاق مصدري لحل المهام في نطاق مستهدف غير مُعلَّم، وغالبًا ما تُعاقَب هذه العملية بوجود فجوات نطاقية كبيرة. تعاني الطرق التقليدية القائمة على الشبكات العصبية التلافيفية (CNN) من صعوبة في التقاط العلاقات النطاقية المعقدة بشكل كامل، مما يُحفّز الانتقال نحو نماذج المحولات البصرية مثل محول Swin، والتي تتفوّق في نمذجة الاعتماديات المحلية والعالمية معًا. في هذا العمل، نقترح منهجية جديدة لـ UDA تُعتمد على محول Swin، وتشمل ثلاث وحدات رئيسية. تُعزز وحدة المُميّز النطاقي الرسومي (Graph Domain Discriminator) التماسك النطاقي من خلال التقاط الارتباطات بين البكسلات باستخدام التحويلات الرسومية، مع التمييز القائم على الانتروبيا عبر انتباه ديناميكي. كما تدمج وحدة الانتباه المزدوج التكيّفي (Adaptive Double Attention) بين انتباه النوافذ (Windows) وانتباه النوافذ المنزَّلة (Shifted Windows) مع إعادة وزن ديناميكي لتمكين التماسك الفعّال بين الميزات القصيرة والمدى الطويل. وأخيرًا، تُعدّ وحدة التحويل عبر الميزات المتقاطعة (Cross-Feature Transform) تحسينًا على كتل محول Swin لتعزيز القدرة على التعميم عبر النطاقات المختلفة. تُثبت المعايير الموسعة الأداء الرائد للمنهجية المتعددة الاستخدامات المُقترحة، التي لا تتطلب وحدات تطابق مخصصة للمهام، مما يُثبت مرونتها العالية في تطبيقات متنوعة.