Aufmerksamkeitsbasierte gemeinsame Detektion von Objekten und semantischen Teilen

In dieser Arbeit adressieren wir das Problem der gemeinsamen Detektion von Objekten wie Hunden und deren semantischen Teilen wie Gesicht, Bein usw. Unser Modell basiert auf zwei Faster-RCNN-Modellen, die ihre Merkmale teilen, um eine neuartige Aufmerksamkeitsbasierte Merkmalsfusion von zugehörigen Objekt- und Teil-Merkmalen durchzuführen, wodurch verbesserte Darstellungen beider erzeugt werden. Diese Darstellungen werden für die endgültige Klassifizierung und die Bounding-Box-Regressionsanalyse jeweils separat für beide Modelle verwendet. Unsere Experimente mit dem PASCAL-Part 2010-Datensatz zeigen, dass die gemeinsame Detektion sowohl die Objekterkennung als auch die Teilerkennung in Bezug auf den mittleren Durchschnitts-Präzisionswert (mean Average Precision, mAP) bei einem IoU-Wert von 0.5 gleichzeitig verbessern kann.