HandOccNet: Okkusionsrobustes Netzwerk zur Schätzung von 3D-Handgittern

Hände werden häufig durch Gegenstände stark verdeckt, was die Schätzung von 3D-Handgittern herausfordernd macht. Frühere Arbeiten haben oft Informationen in verdeckten Bereichen vernachlässigt. Wir argumentieren jedoch, dass verdeckte Bereiche starke Korrelationen mit Händen aufweisen und daher wertvolle Informationen für eine vollständige 3D-Handgitter-Schätzung liefern können. Daher schlagen wir in dieser Arbeit ein neues 3D-Handgitter-Schätznetzwerk namens HandOccNet vor, das die Informationen in verdeckten Bereichen als sekundäres Mittel zur Verbesserung und Anreichnung der Bildmerkmale vollständig ausnutzt. Zu diesem Zweck haben wir zwei aufeinanderfolgende Transformer-basierte Module entwickelt, die als Feature Injecting Transformer (FIT) und Self-Enhancing Transformer (SET) bezeichnet werden. Der FIT injiziert Handinformationen in verdeckte Bereiche unter Berücksichtigung ihrer Korrelationen. Der SET verfeinert das Ausgabeergebnis des FIT durch den Einsatz eines Selbst-Aufmerksamkeitsmechanismus (Self-Attention Mechanism). Durch die Injektion von Handinformationen in die verdeckten Bereiche erreicht unser HandOccNet den aktuellen Stand der Technik bei 3D-Handgitter-Benchmarks, die schwierige Hand-Gegenstand-Verdeckungen enthalten. Die Quellcode ist verfügbar unter: https://github.com/namepllet/HandOccNet.