Command Palette
Search for a command to run...
Neu betrachtung des Sibling Head in Objekterkennern
Neu betrachtung des Sibling Head in Objekterkennern
Guanglu Song Yu Liu Xiaogang Wang
Zusammenfassung
Der „gemeinsame Kopf für Klassifikation und Lokalisierung“ (sogenannter Sibling Head), erstmals in Fast R-CNN~\cite{girshick2015fast} eingeführt, hat in den vergangenen fünf Jahren die Richtung der Objektdetektion beeinflusst. In dieser Arbeit beobachten wir, dass die räumliche Misalignierung zwischen den beiden Objektfunktionen im Sibling Head den Trainingsprozess erheblich beeinträchtigen kann. Diese Misalignierung lässt sich jedoch durch einen sehr einfachen Operator namens task-aware spatial disentanglement (TSD) effektiv beheben. TSD trennt Klassifikation und Regression hinsichtlich der räumlichen Dimension, indem zwei entkoppelte Vorschläge für beide Aufgaben generiert werden, die jeweils auf dem gemeinsamen Vorschlag basieren. Dieser Ansatz wird durch die naturgegebene Erkenntnis motiviert, dass für ein einzelnes Objekt die Merkmale in markanten Bereichen reichhaltige Informationen für die Klassifikation liefern können, während Merkmale in der Nähe der Objektränder besonders gut für die Bounding-Box-Regression geeignet sind. Überraschenderweise führt dieser einfache Entwurf zu einer konsistenten Steigerung der Leistung aller Backbones und Modelle sowohl auf MS COCO als auch auf Google OpenImages um etwa 3% mAP. Darüber hinaus schlagen wir eine progressive Einschränkung vor, um den Leistungsunterschied zwischen den entkoppelten und den gemeinsam genutzten Vorschlägen weiter zu vergrößern und erreichen zusätzliche ~1% mAP. Wir zeigen, dass \algname{} die derzeitige Obergrenze einzelner Modell-Detektoren mit großem Abstand überschreitet (mAP 49,4 mit ResNet-101, 51,2 mit SENet154) und die zentrale Komponente unserer Lösung auf Platz 1 beim Google OpenImage Challenge 2019 darstellt.