HyperAIHyperAI
vor 8 Tagen

Verständnis von Hand-Bildern mittels tiefer Multi-Task-Learning

Xiong Zhang, Hongsheng Huang, Jianchao Tan, Hongmin Xu, Cheng Yang, Guozhu Peng, Lei Wang, Ji Liu
Verständnis von Hand-Bildern mittels tiefer Multi-Task-Learning
Abstract

Die Analyse und Verständnis von Handinformationen aus multimedialen Materialien wie Bildern oder Videos ist für zahlreiche Anwendungen in der realen Welt von großer Bedeutung und bleibt ein aktives Forschungsfeld. Während es bereits verschiedene Ansätze gibt, die darauf abzielen, Handinformationen aus einzelnen Bildern zu rekonstruieren, lösen diese meist nur eine einzelne Aufgabe – beispielsweise die Segmentierung der Handmaske, die Schätzung der 2D-/3D-Handpose oder die Rekonstruktion einer Handmesh – und erzielen unter schwierigen Bedingungen oft nur begrenzte Leistung. Um die Leistung dieser Aufgaben weiter zu verbessern, schlagen wir einen neuartigen Framework für die Hand-Bild-Verständnis (Hand Image Understanding, HIU) vor, der umfassende Informationen über das Handobjekt aus einem einzigen RGB-Bild extrahiert, indem die Beziehungen zwischen diesen Aufgaben gemeinsam berücksichtigt werden. Um dieses Ziel zu erreichen, wird ein kaskadenartiger Mehraufgaben-Lern- (Multi-Task Learning, MTL) Backbone entworfen, der die Schätzung von 2D-Heatmaps, die Lernung der Segmentierungsmaske sowie die Generierung einer intermediären 3D-Informationenkodierung ermöglicht. Dieser wird ergänzt durch ein grob-zu-fein Lernparadigma und eine selbstüberwachte Lernstrategie. Qualitative Experimente zeigen, dass unser Ansatz auch in anspruchsvollen Situationen sinnvolle Mesh-Repräsentationen rekonstruieren kann. Quantitativ übertrifft unsere Methode die derzeit besten Ansätze erheblich auf mehreren etablierten Datensätzen, gemessen an einer Vielzahl von Bewertungsmetriken.