Lite-HRNet: Ein leichtgewichtiger Hochauflösungsnetzwerk

Wir stellen ein effizientes Hochauflösungsnetzwerk, Lite-HRNet, für die menschliche Pose-Schätzung vor. Ausgangspunkt ist die einfache Anwendung des effizienten Shuffle-Blocks aus ShuffleNet in HRNet (High-Resolution Network), was eine verbesserte Leistung im Vergleich zu populären leichten Netzwerken wie MobileNet, ShuffleNet und Small HRNet ermöglicht. Wir stellen fest, dass die in Shuffle-Blöcken stark genutzten Punkt-Convolutionen (1×1) zum Rechenknotenpunkt werden. Um dies zu überwinden, führen wir eine leichte Baueinheit, die bedingte Kanalgewichtung (conditional channel weighting), ein, die die kostspieligen Punkt-Convolutionen (1×1) in Shuffle-Blöcken ersetzt. Die Komplexität der Kanalgewichtung ist linear bezüglich der Anzahl der Kanäle und damit niedriger als die quadratische Komplexität der Punkt-Convolutionen. Unser Ansatz lernt die Gewichte aus allen Kanälen und mehreren Auflösungen, die in den parallelen Zweigen von HRNet bereits verfügbar sind. Die erlernten Gewichte fungieren als Brücke zur Informationsübertragung zwischen Kanälen und Auflösungen und kompensieren so die Funktion, die ursprünglich durch die Punkt-Convolutionen (1×1) übernommen wurde. Lite-HRNet erreicht auf dem Gebiet der menschlichen Pose-Schätzung überzeugende Ergebnisse im Vergleich zu etablierten leichten Netzwerken. Zudem lässt sich Lite-HRNet problemlos auf Aufgaben der semantischen Segmentierung in gleichermaßen leichter Weise anwenden. Der Quellcode und die Modelle sind öffentlich unter https://github.com/HRNet/Lite-HRNet verfügbar.