vor 17 Tagen

ScaleNAS: One-Shot-Lernen von skalenbewussten Darstellungen für die visuelle Erkennung

Hsin-Pai Cheng, Feng Liang, Meng Li, Bowen Cheng, Feng Yan, Hai Li, Vikas Chandra, Yiran Chen

Abstract

Die Skalenvarianz verschiedener Körperteile und Objekte stellt eine herausfordernde Aufgabe für visuelle Erkennungsaufgaben dar. Bisherige Ansätze entwerfen meist spezialisierte Backbone-Architekturen oder wenden Neural Architecture Search (NAS) für jede Aufgabe separat an, um dieses Problem zu bewältigen. Allerdings sind diese Ansätze durch erhebliche Einschränkungen im Design- oder Suchraum begrenzt. Um diese Probleme zu lösen, präsentieren wir ScaleNAS, eine One-Shot-Lernmethode zur Exploration von skalenbewussten Darstellungen. ScaleNAS löst mehrere Aufgaben gleichzeitig, indem sie die Aggregation mehrskaliger Merkmale durchsucht. ScaleNAS nutzt einen flexiblen Suchraum, der eine beliebige Anzahl von Blöcken und Kreuz-Skalen-Merkmalsfusionen zulässt. Um die durch den flexiblen Suchraum verursachten hohen Suchkosten zu bewältigen, setzt ScaleNAS One-Shot-Lernen ein, das durch gruppiertes Sampling und evolutionäre Suche getrieben wird. Ohne zusätzliche Nachtrainierung kann ScaleNet direkt für verschiedene visuelle Erkennungsaufgaben eingesetzt werden und erzielt dabei herausragende Leistung. Wir verwenden ScaleNAS, um hochauflösende Modelle für zwei unterschiedliche Aufgaben zu entwickeln: ScaleNet-P für die menschliche Pose-Schätzung und ScaleNet-S für die semantische Segmentierung. ScaleNet-P und ScaleNet-S übertrumpfen sowohl manuell entworfene als auch NAS-basierte Methoden in beiden Aufgaben. Bei der Anwendung von ScaleNet-P auf die Bottom-Up-Pose-Schätzung erreicht es die State-of-the-Art-Leistung von HigherHRNet. Insbesondere erreicht ScaleNet-P4 eine AP von 71,6 % auf dem COCO test-dev, was eine neue State-of-the-Art-Ergebnis darstellt.