HyperAIHyperAI
vor 16 Tagen

FSA-Net: Lernen der feinkörnigen Struktursammlung für die Kopfpose-Schätzung aus einem einzigen Bild

{ Yung-Yu Chuang, Yen-Yu Lin, Yi-Ting Chen, Tsun-Yi Yang}
FSA-Net: Lernen der feinkörnigen Struktursammlung für die Kopfpose-Schätzung aus einem einzigen Bild
Abstract

Diese Arbeit stellt eine Methode zur Kopfpose-Schätzung aus einer einzigen Bildaufnahme vor. Bisherige Ansätze schätzen die Kopfpose häufig über die Schätzung von Merkmalpunkten oder Tiefeninformationen und erfordern daher häufig mehr Rechenleistung als notwendig. Unser Ansatz basiert auf Regressionsverfahren und Merkmalsaggregation. Um ein kompaktes Modell zu gewährleisten, verwenden wir ein weiches stufenweises Regressionsverfahren. Bestehende Methoden zur Merkmalsaggregation behandeln Eingaben als eine Sammlung von Merkmalen und ignorieren daher die räumliche Beziehung zwischen den Merkmalen in einer Merkmalskarte. Wir schlagen vor, eine feinabgestimmte Strukturabbildung zu lernen, um Merkmale räumlich zu gruppieren, bevor sie aggregiert werden. Diese feinabgestimmte Struktur liefert informationsreiche, teilbasierte Informationen sowie aggregierte Werte. Durch die Nutzung von lernbaren und nicht-lernbaren Gewichten für räumliche Positionen können verschiedene Modellvarianten generiert und zu einem komplementären Ensemble zusammengeschlossen werden. Experimente zeigen, dass unsere Methode die derzeit besten Ansätze – sowohl solche ohne Merkmalpunkte als auch solche, die auf Merkmalpunkten oder Tiefeninformationen basieren – übertrifft. Mit lediglich einem einzigen RGB-Bild als Eingabe erreicht unsere Methode sogar eine bessere Leistung als Methoden, die multimodale Informationen (RGB-D, RGB-Zeit) nutzen, insbesondere bei der Schätzung des Yaw-Winkels. Darüber hinaus beträgt der Speicherbedarf unseres Modells nur ein Hundertstel (1/100) des Speicherverbrauchs früherer Ansätze.

FSA-Net: Lernen der feinkörnigen Struktursammlung für die Kopfpose-Schätzung aus einem einzigen Bild | Neueste Forschungsarbeiten | HyperAI