Reconstruction faiblement supervisée de main par convolution de maillage dans le wild

Nous introduisons une architecture de réseau simple et efficace pour l'estimation de la pose 3D d'une main à partir d'une seule vue, composée d'un encodeur d'image suivi d'un décodeur à convolution de maillage, entraîné à l'aide d'une perte directe de reconstruction de maillage 3D de la main. Nous entraînons notre réseau en collectant un grand jeu de données d'actions manuelles à partir de vidéos YouTube, que nous utilisons comme source de supervision faible. Notre système basé sur des convolutions de maillage et entraîné de manière faiblement supervisée surpasser largement les méthodes de pointe, réduisant même de moitié les erreurs sur le benchmark « in the wild ». Le jeu de données et les ressources supplémentaires sont disponibles à l'adresse suivante : https://arielai.com/mesh_hands.