Dynamic Head: Objektdetektionsköpfe durch Aufmerksamkeit vereinheitlichen

Die komplexe Natur der Kombination von Lokalisierung und Klassifikation im Objektdetektionsprozess hat eine florierende Entwicklung von Methoden hervorgebracht. Frühere Arbeiten versuchten, die Leistung verschiedener Objektdetektionsköpfe zu verbessern, konnten jedoch kein einheitliches Konzept vorlegen. In diesem Paper stellen wir einen neuartigen dynamischen Kopf-Framework vor, der Objektdetektionsköpfe mit Aufmerksamkeitsmechanismen vereint. Durch die kohärente Kombination mehrerer selbst-Attention-Mechanismen zwischen Merkmalsstufen zur Skalenerkennung, zwischen räumlichen Positionen zur räumlichen Erkennung und innerhalb der Ausgabekanäle zur Aufgabenorientierung, verbessert der vorgeschlagene Ansatz signifikant die Repräsentationsfähigkeit von Objektdetektionsköpfen ohne zusätzlichen Rechenaufwand. Weitere Experimente belegen die Effektivität und Effizienz des vorgeschlagenen dynamischen Kopfes am COCO-Benchmark. Mit einem standardisierten ResNeXt-101-DCN-Backbone erreichen wir eine erhebliche Leistungssteigerung gegenüber etablierten Objektdetektoren und erzielen eine neue State-of-the-Art-Ergebnis von 54,0 AP. Darüber hinaus, unter Verwendung eines modernen Transformer-Backbones und zusätzlicher Trainingsdaten, gelingt es uns, die bisher beste COCO-Ergebnis auf einen neuen Rekord von 60,6 AP zu heben. Der Quellcode wird unter https://github.com/microsoft/DynamicHead veröffentlicht werden.