HyperAIHyperAI
vor 2 Monaten

Grid R-CNN

Xin Lu; Buyu Li; Yuxin Yue; Quanquan Li; Junjie Yan
Grid R-CNN
Abstract

Dieses Papier stellt einen neuen Objekterkennungsrahmen namens Grid R-CNN vor, der ein gittergesteuertes Lokalisierungsmechanismus für genaue Objekterkennung verwendet. Im Gegensatz zu den traditionellen regressionsbasierten Methoden erfasst Grid R-CNN die räumliche Information explizit und nutzt die positionsabhängigen Eigenschaften der vollständig konvolutionellen Architektur. Anstatt nur zwei unabhängige Punkte zu verwenden, haben wir eine Mehrpunktsüberwachungsformulierung entwickelt, um mehr Hinweise zu kodieren und so den Einfluss ungenauer Vorhersagen bestimmter Punkte zu reduzieren. Um den vollen Vorteil der Korrelation von Punkten in einem Gitter auszunutzen, schlagen wir eine zweistufige Informationsfusionstrategie vor, um die Merkmalskarten benachbarter Gitterpunkte zu fusionieren. Der gittergesteuerte Lokalisierungsansatz kann leicht auf verschiedene moderne Erkennungsrahmen erweitert werden. Grid R-CNN führt zu hochwertiger Objektlokalisierung, und Experimente zeigen, dass es im Vergleich zu Faster R-CNN mit Res50-Backbone und FPN-Architektur einen AP-Gewinn von 4,1 % bei IoU=0,8 und einen AP-Gewinn von 10,0 % bei IoU=0,9 auf dem COCO-Benchmark erreicht.