Estimation de la posture humaine semi-supervisée dans les images d'histoire de l'art

Le geste en tant que langage de la communication non verbale a été théoriquement établi depuis le XVIIe siècle. Cependant, son importance pour les arts visuels n'a été exprimée que de manière sporadique. Cette situation peut être principalement attribuée à l'énorme quantité de données qui devaient traditionnellement être traitées manuellement. Avec l'avancement constant de la numérisation, un nombre croissant d'artefacts historiques ont été indexés et rendus accessibles au public, créant ainsi un besoin de recherche automatique de motifs artistico-historiques présentant des constellations corporelles ou des poses similaires. Étant donné que le domaine de l'art diffère considérablement des ensembles de données existants du monde réel pour l'estimation des poses humaines en raison de sa variabilité stylistique, cela présente de nouveaux défis. Dans cet article, nous proposons une nouvelle approche pour estimer les poses humaines dans les images artistico-historiques. Contrairement aux travaux précédents qui tentent de combler le fossé entre les domaines à l'aide de modèles pré-entraînés ou par transfert stylistique, nous suggérons d'utiliser un apprentissage semi-supervisé pour la détection d'objets et de points clés. De plus, nous introduisons un nouveau ensemble de données spécifique au domaine qui comprend des annotations de boîtes englobantes et de points clés des figures humaines. Notre approche obtient des résultats significativement meilleurs que ceux des méthodes utilisant des modèles pré-entraînés ou le transfert stylistique.