التعلم المحدد للحدود عالية الدقة للكشف عن الكائنات المائلة من خلال انعدام التقارب كولباك-ليبلر

تُرثُ معظم كاشفات الكائنات المُحَوَّلة حاليًا من نموذج الكشف الأفقي، نظرًا لتطور هذا الأخير إلى مجال مُطوَّر جيدًا. ومع ذلك، يصعب على هذه الكاشفات تحقيق أداء متميز في الكشف عالي الدقة بسبب قيود تصميم دالة الخسارة للانحدار الحالي، خاصةً بالنسبة للكائنات ذات النسب الطولية الكبيرة. وباتباع منظور يُعتبر فيه الكشف الأفقي حالة خاصة من الكشف المُحَوَّل، نحن في هذا البحث مُحفَّزون لتغيير تصميم دالة الخسارة للانحدار الدوراني من منهجية الاستنتاج إلى منهجية الاستنتاج التمثيلي، من منظور العلاقة بين الدوران والكشف الأفقي. ونُظهر أن التحدي الأساسي يتمثل في كيفية ضبط المعاملات المترابطة في دالة الخسارة للانحدار الدوراني، بحيث يمكن للمعاملات المقدرة أن تؤثر على بعضها البعض بشكل تكيفي ومتآزر خلال عملية التحسين المشترك الديناميكي. بشكل خاص، نقوم أولاً بتحويل المربع المحيط المُحَوَّل إلى توزيع ثنائي الأبعاد من نوع غاوسي، ثم نحسب انحراف كولبكا-ليبلر (KLD) بين التوزيعات الغاوسية كدالة خسارة للانحدار. وبتحليل التدرج لكل معامل، نُظهر أن KLD (ومشتقاتها) يمكنها تعديل تدرجات المعاملات ديناميكيًا وفقًا لخصائص الكائن. وسوف تقوم بتعديل الأهمية (وزن التدرج) للمعامل الزاوي وفقًا لنسبة الطول إلى العرض. ويمكن أن يكون لهذا الآلية تأثير جوهري في الكشف عالي الدقة، حيث أن خطأ بسيط في الزاوية قد يؤدي إلى انخفاض كبير في الدقة بالنسبة للكائنات ذات النسب الطولية الكبيرة. والأهم من ذلك، أثبتنا أن KLD لا يعتمد على المقياس (مُحَوَّل بالنسبة للقياس). ونُظهر أيضًا أن دالة KLD يمكن تبسيطها إلى دالة $l_{n}$-norm الشائعة في الكشف الأفقي. وتوصل النتائج التجريبية على سبعة مجموعات بيانات باستخدام كاشفات مختلفة إلى تفوق متسق، ويمكن الوصول إلى الشيفرة من خلال الرابطين: https://github.com/yangxue0827/RotationDetection و https://github.com/open-mmlab/mmrotate.