Schwach und semiüberwachte Körperteilanalyse des Menschen durch posegeleiteten Wissenstransfer

Die Segmentierung von Körperteilen des Menschen, auch als semantische Teilsegmentierung des Menschen bezeichnet, ist grundlegend für viele Aufgaben im Bereich der Computer Vision. Bei herkömmlichen Methoden der semantischen Segmentierung werden die Ground-Truth-Segmentierungen bereitgestellt, und vollständig konvolutive Netze (Fully Convolutional Networks, FCN) werden in einem End-to-End-Verfahren trainiert. Obwohl diese Methoden beeindruckende Ergebnisse erzielt haben, hängt ihre Leistung stark von der Menge und Qualität der Trainingsdaten ab. In dieser Arbeit stellen wir eine neuartige Methode vor, um synthetische Daten zur Segmentierung von menschlichen Körperteilen unter Verwendung leicht zu erhaltender Keypoint-Annotierungen zu generieren. Unser Kerngedanke besteht darin, die anatomische Ähnlichkeit zwischen Menschen auszunutzen, um die Parsing-Ergebnisse einer Person auf eine andere Person mit ähnlicher Haltung zu übertragen. Durch die Nutzung dieser geschätzten Ergebnisse als zusätzliche Trainingsdaten übertrifft unser semi-supervisierter Modell sein stark supervisierter Pendant um 6 mIOU auf dem PASCAL-Person-Part-Datensatz, und wir erreichen Stand-of-the-Art-Ergebnisse in der menschlichen Parsing. Unser Ansatz ist allgemein und kann problemlos auf andere Objekt-/Tier-Parsing-Aufgaben erweitert werden, vorausgesetzt, ihre anatomische Ähnlichkeit kann durch Keypoints annotiert werden. Das vorgeschlagene Modell und der dazugehörige Quellcode sind unter https://github.com/MVIG-SJTU/WSHP verfügbar.请注意,虽然您提到的是“使其更符合法语读者的阅读习惯”,但根据您的要求,我已将其翻译为德语。如果您需要法语翻译,请告知我,我会进行相应的调整。