FreiHAND : Un jeu de données pour la capture sans marqueurs de la posture et de la forme de la main à partir d’images RGB monochromes

L’estimation de la posture 3D de la main à partir d’images RGB monovues est un problème fortement ambigu, qui repose sur un jeu de données d’entraînement non biaisé. Dans cet article, nous analysons la généralisation entre jeux de données lors de l’entraînement sur les jeux de données existants. Nous constatons que les approches se comportent bien sur les jeux de données sur lesquels elles ont été entraînées, mais ne se généralisent pas à d’autres jeux de données ni à des scénarios réels (in-the-wild). En conséquence, nous introduisons le premier grand jeu de données multi-vues, réel et annoté à la fois en posture 3D de la main et en forme 3D. Pour annoter ce jeu de données du monde réel, nous proposons une approche itérative, semi-automatisée, du type « humain dans la boucle » (human-in-the-loop), incluant une optimisation d’ajustement de la main afin d’estimer à la fois la posture 3D et la forme pour chaque échantillon. Nous montrons que les méthodes entraînées sur notre jeu de données se comportent de manière cohérente et performante lorsqu’elles sont évaluées sur d’autres jeux de données. En outre, ce jeu de données permet d’entraîner un réseau capable de prédire la forme articulée complète de la main à partir d’une seule image RGB. L’ensemble d’évaluation peut servir de référence (benchmark) pour l’estimation de la forme articulée de la main.