HyperAIHyperAI
vor 2 Monaten

Lernen von Merkmalspyramiden für die Schätzungen der menschlichen Körperhaltung

Wei Yang; Shuang Li; Wanli Ouyang; Hongsheng Li; Xiaogang Wang
Lernen von Merkmalspyramiden für die Schätzungen der menschlichen Körperhaltung
Abstract

Die Schätzung von menschlichen Körperhaltungen mit Artikulationen ist eine grundlegende, jedoch herausfordernde Aufgabe im Bereich der Computer Vision. Die Schwierigkeit tritt insbesondere bei Skalenvariationen von Körperteilen auf, wenn sich die Kameraperspektive ändert oder starke Verkürzungen auftreten. Obwohl Pyramidenmethoden häufig verwendet werden, um Skaländerungen während der Inferenz zu behandeln, ist das Lernen von Features in tiefen Faltungsnetzen (Deep Convolutional Neural Networks, DCNNs) noch nicht ausreichend erforscht. In dieser Arbeit entwickeln wir ein Pyramid Residual Modul (PRM) zur Verbesserung der Skaleninvarianz in DCNNs. Bei gegebenen Eingangsfeatures lernt das PRM Faltungsfilter auf verschiedenen Skalen dieser Features, die durch unterschiedliche Subsampling-Raten in einem mehrverzweigten Netzwerk erzeugt werden. Darüber hinaus stellen wir fest, dass es unangemessen ist, existierende Methoden zur Gewichtsinitialisierung für mehrverzweigte Netzwerke zu verwenden, die in vielen kürzlich durchgeführten Aufgaben bessere Ergebnisse als einfache Netzwerke erzielen. Daher leiten wir theoretisch eine Erweiterung des aktuellen Gewichtsinitialisierungsschemas für mehrverzweigte Netzstruktur her. Wir testen unsere Methode an zwei Standard-Benchmarks für die Schätzung von menschlichen Körperhaltungen. Unser Ansatz erzielt den aktuellen Stand der Technik (state-of-the-art) an beiden Benchmarks. Der Quellcode ist unter https://github.com/bearpaw/PyraNet verfügbar.