H2FA R-CNN: محاذاة الميزات الشاملة والهرمية للكشف عن الكائنات المراقبة ضعيفًا عبر المجالات

يهدف الكشف عن الكائنات المراقب بضعف في مجالات متعددة (CDWSOD) إلى تكييف نموذج الكشف ليتماشى مع مجال مستهدف جديد يمتلك علامات على مستوى الصورة التي يمكن اكتسابها بسهولة. ويعتبر التماثل بين المجال المصدري والمجال المستهدف أمرًا بالغ الأهمية بالنسبة لدقة CDWSOD. تركز الطرق الحالية عادةً على مكونات كشف جزئية لتحقيق التماثل بين المجالات. على النقيض من ذلك، ينظر هذا البحث إلى أن جميع مكونات الكشف مهمة، ويقترح نموذجًا جديدًا يُسمى R-CNN التماثل الشامل والهرمي (H^2FA R-CNN). حيث يفرض H^2FA R-CNN تمايزًا على مستوى الصورة لسمات المُشَكِّل الأساسي، بالإضافة إلى تمايزين على مستوى الكائنات لوحدة RPN ووحدة الكشف. وتتماشى هذه البنية الهرمية من التماثل الخشن إلى الدقيق مع مسار عملية الكشف، أي مع معالجة سمات مستوى الصورة وسمات مستوى الكائنات من الأسفل إلى الأعلى. وبشكل مهم، قمنا بتصميم طريقة مراقبة هجينة جديدة لتعلم التماثل على مستوى الكائنات، والتي تتيح لوحدة RPN ووحدة الكشف أن يتلقيا في نفس الوقت مراقبة ضعيفة/كاملة من المجالات المستهدفة/المصدرية. وبجمع جميع هذه التماثلات على مستوى السمات، يقلل H^2FA R-CNN بشكل فعّال الفجوة بين المجال المصدري والمجال المستهدف. وتُظهر النتائج التجريبية أن H^2FA R-CNN يُحسّن بشكل ملحوظ دقة الكشف عن الكائنات عبر المجالات، ويُحقق أداءً جديدًا على مستوى الحالة الحالية (state-of-the-art) في مجموعات البيانات الشهيرة. يمكن الوصول إلى الكود والنموذج المُدرّب مسبقًا من خلال الرابط: https://github.com/XuYunqiu/H2FA_R-CNN.