Tiefes Hochauflösendes Repräsentationslernen für die visuelle Erkennung

Hochaufgelöste Darstellungen sind für positionsempfindliche visuelle Probleme wie die Schätzung menschlicher Pose, semantische Segmentierung und Objekterkennung unerlässlich. Bestehende state-of-the-art-Frameworks kodieren zunächst das Eingabebild als niedrig-auflösende Darstellung durch ein Unterwerk, das durch die serienmäßige Verbindung von hoch- auf niedrig-auflösenden Faltungen (z.B. ResNet, VGGNet) gebildet wird, und erzeugen dann die hochaufgelöste Darstellung aus der kodierten niedrig-auflösenden Darstellung. Im Gegensatz dazu behält unser vorgeschlagenes Netzwerk, das als High-Resolution Network (HRNet) bezeichnet wird, eine hochaufgelöste Darstellung während des gesamten Prozesses bei. Es gibt zwei wesentliche Merkmale: (i) Die Ströme der hoch- auf niedrig-auflösenden Faltungen werden \emph{parallel} verbunden; (ii) Informationen werden wiederholt über verschiedene Auflösungen hinweg ausgetauscht. Der Vorteil besteht darin, dass die resultierende Darstellung semantisch reicher und räumlich präziser ist. Wir zeigen die Überlegenheit des vorgeschlagenen HRNets in einer Vielzahl von Anwendungen, einschließlich der Schätzung menschlicher Pose, semantischer Segmentierung und Objekterkennung, was darauf hindeutet, dass HRNet ein stärkerer Backbone für Computer-Vision-Probleme ist. Alle Codes sind unter~{\url{https://github.com/HRNet}} verfügbar.