Modulierte Graphen-Convolutional Network für die 3D-Menschenpose-Schätzung

Das Graphen-Convolutional-Netzwerk (GCN) hat in jüngster Zeit vielversprechende Ergebnisse bei der 3D-Menschengestalt-Schätzung (3D HPE) erzielt, indem es die Beziehungen zwischen Körpersegmenten modelliert. Allerdings leiden die meisten bisherigen GCN-Ansätze an zwei Hauptnachteilen. Erstens werden innerhalb einer Graphen-Convolution-Schicht für alle Knoten dieselbe Merkmalstransformation verwendet. Dies erschwert die Lernung unterschiedlicher Beziehungen zwischen verschiedenen Gelenken. Zweitens basiert der Graph in der Regel auf dem menschlichen Skelett und ist somit suboptimal, da menschliche Bewegungsmuster oft Bewegungsmuster aufweisen, die über die natürlichen Verbindungen zwischen Gelenken hinausgehen. Um diese Einschränkungen zu überwinden, stellen wir ein neuartiges moduliertes GCN für die 3D-HPE vor. Es besteht aus zwei zentralen Komponenten: Gewichtsmodulation und Affinitätsmodulation. Die Gewichtsmodulation lernt für unterschiedliche Knoten jeweils unterschiedliche Modulationsvektoren, sodass die Merkmalstransformationen der einzelnen Knoten entkoppelt werden, während gleichzeitig die Modellgröße klein gehalten wird. Die Affinitätsmodulation passt die Graphenstruktur innerhalb eines GCN dynamisch an, sodass zusätzliche Kanten über das menschliche Skelett hinaus modelliert werden können. Wir untersuchen verschiedene Ansätze zur Affinitätsmodulation sowie den Einfluss verschiedener Regularisierungen. Eine gründliche Ablationsstudie zeigt, dass beide Modulationsansätze die Leistung verbessern, ohne signifikanten zusätzlichen Rechenaufwand zu verursachen. Im Vergleich zu aktuellen State-of-the-Art-GCNs für die 3D-HPE reduziert unser Ansatz entweder die Schätzfehler erheblich – beispielsweise um etwa 10 % – und behält dabei eine kleine Modellgröße, oder verringert die Modellgröße drastisch – von 4,22 M auf 0,29 M Parameter (eine Reduktion um den Faktor 14,5) – und erreicht gleichzeitig vergleichbare Leistung. Ergebnisse auf zwei gängigen Benchmarks zeigen, dass unser moduliertes GCN einige aktuelle State-of-the-Art-Methoden übertrifft. Der Quellcode ist unter https://github.com/ZhimingZo/Modulated-GCN verfügbar.