التصحيح مهم: محول الزخم لتقسيم المعنى التكيفي بين المجالات

بعد النجاح الكبير لنسخ متغيرات متحول الرؤية (Vision Transformers - ViTs) في مجال الرؤية الحاسوبية، أظهرت أيضًا إمكانات كبيرة في تقسيم الدلالة التكيفي حسب المجال (Domain Adaptive Semantic Segmentation). ومع ذلك، فإن تطبيق متحولات الرؤية المحلية بشكل مباشر في تقسيم الدلالة التكيفي حسب المجال لا يجلب التحسين المتوقع. لقد اكتشفنا أن العائق الرئيسي لمتحولات الرؤية المحلية يعود إلى المكونات ذات التردد العالي التي تنشأ أثناء بناء العلامات الوهمية ومحاذاة الخصائص للمناطق المستهدفة. هذه المكونات ذات التردد العالي تجعل تدريب متحولات الرؤية المحلية غير مستقر للغاية وتضر بقابلية نقلها. في هذا البحث، نقدم آلية تصفية منخفضة التردد (Low-Pass Filtering Mechanism) وشبكة الزخم (Momentum Network) لتسهيل ديناميكيات التعلم للخصائص والعلامات الوهمية في المنطقة المستهدفة. بالإضافة إلى ذلك، نقترح قياسًا ديناميكيًا للفروق لتوفير محاذاة بين التوزيعات في المناطق المصدر والمستهدفة من خلال أوزان ديناميكية لتقييم أهمية العينات. بعد معالجة هذه المشكلات، أظهرت التجارب الشاملة على مقاييس الانتقال من المحاكاة إلى الواقع (Sim2Real Benchmarks) أن الطريقة المقترحة تتفوق على أفضل الأساليب الحالية. رموز البرمجيات الخاصة بنا متاحة على الرابط: https://github.com/alpc91/TransDA