HyperAIHyperAI
vor 3 Monaten

3D Menschliche Form und Pose aus einem einzigen niedrigauflösenden Bild mit selbstüberwachtem Lernen

Xiangyu Xu, Hao Chen, Francesc Moreno-Noguer, Laszlo A. Jeni, Fernando De la Torre
3D Menschliche Form und Pose aus einem einzigen niedrigauflösenden Bild mit selbstüberwachtem Lernen
Abstract

Die Schätzung von 3D-Körperform und -Pose aus monokularen Bildern ist ein aktives Forschungsfeld in der Computer Vision und hat erheblichen Einfluss auf die Entwicklung neuer Anwendungen, von der Aktivitätsrekognition bis hin zur Erstellung virtueller Avatare. Bestehende tieflearnerbasierte Methoden zur Schätzung von 3D-Körperform und -Pose setzen relativ hochauflösende Eingabebilder voraus; in vielen praktischen Szenarien wie Videoüberwachung oder Sportübertragungen sind jedoch hochauflösende visuelle Inhalte nicht immer verfügbar. Niedrigauflösende Bilder in realen Umgebungen können eine große Bandbreite an Bildgrößen aufweisen, und ein Modell, das auf einer bestimmten Auflösung trainiert wurde, degradiert typischerweise nicht reibungslos bei anderen Auflösungen. Zwei gängige Ansätze zur Bewältigung des Problems niedriger Auflösung bestehen entweder darin, Super-Resolution-Techniken auf die Eingabebilder anzuwenden, was zu visuellen Artefakten führen kann, oder darin, für jede Auflösung ein eigenes Modell zu trainieren, was in vielen realistischen Anwendungen unpraktisch ist. Um diese Probleme anzugehen, wird in diesem Artikel ein neuartiger Algorithmus namens RSC-Net vorgestellt, der aus einem auflösungssensiblen Netzwerk, einer selbstüberwachten Verlustfunktion und einem Kontrastlernschema besteht. Das vorgeschlagene Netzwerk ist in der Lage, 3D-Körperform und -Pose mit einem einzigen Modell über verschiedene Auflösungen hinweg zu lernen. Die selbstüberwachte Verlustfunktion fördert die skalenkonsistente Ausgabe, während das Kontrastlernschema die Skalenkonsistenz der tiefen Merkmale erzwingt. Wir zeigen, dass beide neuen Trainingsverluste Robustheit bei der schwach überwachten Schätzung von 3D-Form und -Pose bieten. Umfangreiche Experimente belegen, dass RSC-Net konsistent bessere Ergebnisse als die derzeit besten Methoden für anspruchsvolle Niedrigauflösungsbilder erzielt.