HyperAIHyperAI
vor 2 Monaten

Bounding Box Regression mit Unsicherheit für genaue Objekterkennung

Yihui He; Chenchen Zhu; Jianren Wang; Marios Savvides; Xiangyu Zhang
Bounding Box Regression mit Unsicherheit für genaue Objekterkennung
Abstract

Großmaßstäbliche Objekterkennungsdatasets (z.B. MS-COCO) versuchen, die Ground-Truth-Bounding-Boxen so klar wie möglich zu definieren. Dennoch beobachten wir, dass bei der Beschriftung der Bounding-Boxen immer noch Unsicherheiten entstehen. In dieser Arbeit schlagen wir einen neuen Regressionsverlust für Bounding-Boxen vor, der die Transformation und die Lokalisierungsvarianz gemeinsam lernt. Unser Verlust verbessert die Lokalisierungsgenauigkeit verschiedener Architekturen erheblich, ohne praktisch zusätzliche Berechnungen zu erfordern. Die gelernte Lokalisierungsvarianz ermöglicht es uns, benachbarte Bounding-Boxen während der Non-Maximum-Suppression (NMS) zusammenzuführen, was die Lokalisierungsleistung weiter erhöht. Auf MS-COCO steigern wir die durchschnittliche Präzision (Average Precision, AP) von VGG-16 Faster R-CNN von 23,6 % auf 29,1 %. Noch wichtiger ist jedoch, dass unsere Methode für ResNet-50-FPN Mask R-CNN sowohl die AP als auch die AP90 um 1,8 % und 6,2 % jeweils verbessert, was deutlich besser ist als frühere Standesmethoden zur Verfeinerung von Bounding-Boxen. Unser Code und unsere Modelle sind unter folgender Adresse verfügbar: github.com/yihui-he/KL-Loss