فك التحويل المكاني للكشف عن الكائنات الموجهة

لقد حققت نماذج التحويل البصري (ViTs) نجاحًا ملحوظًا في مهام الرؤية الحاسوبية. ومع ذلك، لم يتم استكشاف إمكاناتها في السيناريوهات الحساسة للدوران بشكل كامل، وقد يعود هذا التقييد إلى نقص التحويل المكاني الثابت في عملية نقل البيانات. في هذه الدراسة، نقدم منهجية جديدة تُسمى "فك التحويل المكاني" (Spatial Transform Decoupling - STD)، والتي تقدم حلًا بسيطًا وفعالًا للكشف عن الكائنات الموجهة باستخدام ViTs. تعتمد STD على بنية مكونة من كتل ViT متعددة، وتستخدم فروعًا شبكة منفصلة لتنبؤ الموضع والحجم والزاوية للإطارات المحيطة (bounding boxes)، مما يتيح استغلال إمكانات التحويل المكاني لـ ViTs بطريقة تقسيم واختزال. علاوة على ذلك، من خلال تجميع قنوات التنشيط المتسلسلة (CAMs) المحسوبة بناءً على المعاملات المُعدَّلة، تُعزز STD تدريجيًا الميزات داخل مناطق الاهتمام (RoIs)، مما يكمل آلية الانتباه الذاتي. وبلا إضافات مكثفة، تحقق STD أداءً من الطراز الرائد على مجموعات البيانات القياسية، بما في ذلك DOTA-v1.0 (82.24% mAP) وHRSC2016 (98.55% mAP)، مما يُثبت فعالية المنهجية المقترحة. يمكن الوصول إلى الكود المصدري من خلال الرابط: https://github.com/yuhongtian17/Spatial-Transform-Decoupling.