Dite-HRNet: Dynamisches leichtgewichtiges Hochauflösendes Netzwerk für die menschliche Pose-Schätzung

Ein Hochauflösendes Netzwerk zeigt bemerkenswerte Fähigkeiten bei der Extraktion von Merkmalen auf mehreren Skalen für die menschliche Pose-Schätzung, kann jedoch langreichweitige Wechselwirkungen zwischen Gelenken nicht erfassen und weist eine hohe Rechenkomplexität auf. Um diese Probleme zu lösen, präsentieren wir ein dynamisches, leichtgewichtiges Hochauflösendes Netzwerk (Dite-HRNet), das effizient mehrskalige Kontextinformationen extrahiert und langreichweitige räumliche Abhängigkeiten für die menschliche Pose-Schätzung modelliert. Konkret schlagen wir zwei Methoden vor: dynamische Split-Convolution und adaptives Kontextmodellierung, und integrieren sie in zwei neuartige, leichtgewichtige Blöcke, die als dynamischer mehrskaliger Kontextblock und dynamischer globaler Kontextblock bezeichnet werden. Diese beiden Blöcke bilden die grundlegenden Baueinheiten unseres Dite-HRNet und sind speziell für Hochauflöse-Netzwerke entworfen, um die parallele Mehrskalen-Architektur optimal auszunutzen. Experimentelle Ergebnisse zeigen, dass das vorgeschlagene Netzwerk sowohl auf den COCO- als auch auf den MPII-Datenbanken für die menschliche Pose-Schätzung eine überlegene Leistung erzielt und damit die derzeit besten leichtgewichtigen Netzwerke übertrifft. Der Quellcode ist unter folgender Adresse verfügbar: https://github.com/ZiyiZhang27/Dite-HRNet.