Deformable ConvNets v2: Noch deformierbarer, bessere Ergebnisse

Die überlegene Leistung von Deformable Convolutional Networks (Deformierbaren Faltungsnetzen) resultiert aus ihrer Fähigkeit, sich den geometrischen Variationen von Objekten anzupassen. Durch eine Untersuchung ihres adaptiven Verhaltens stellen wir fest, dass während der räumliche Bereich für ihre neuronalen Merkmale dem Objektstruktur gegenüber regulären ConvNets näher entspricht, dieser Bereich dennoch weit über das Interessengebiet hinausreichen kann und dadurch die Merkmale durch irrelevante Bildinhalte beeinflusst werden. Um dieses Problem zu lösen, präsentieren wir eine Neufassung von Deformable ConvNets, die ihre Fähigkeit verbessert, sich auf relevante Bildbereiche zu konzentrieren, durch erhöhte Modellierungskraft und stärkere Trainingsschemata. Die Modellierungskraft wird durch eine umfassendere Integration der deformierbaren Faltung im Netzwerk und durch die Einführung eines Modulationsmechanismus gesteigert, der den Umfang der Deformationmodellierung erweitert. Um diese erweiterte Modellierungsfähigkeit effektiv zu nutzen, leiten wir das Netzwerkausbildung durch ein vorgeschlagenes Feature-Imitierungsverfahren, das dem Netzwerk hilft, Merkmale zu lernen, die die Objektfokussierung und Klassifikationsleistung von R-CNN-Merkmalen widerspiegeln. Mit den vorgeschlagenen Beiträgen erreicht diese neue Version von Deformable ConvNets signifikante Leistungsverbesserungen gegenüber dem ursprünglichen Modell und liefert führende Ergebnisse im COCO-Benchmark für Objekterkennung und Instanzsegmentierung.