Pousser les limites de l'estimation semi-supervisée de la pose 3D de la main basée sur la profondeur avec un entraînement par consistance

Malgré les progrès significatifs réalisés récemment par les méthodes de estimation de pose 3D des mains basées sur la profondeur, celles-ci nécessitent encore une quantité importante de données d’entraînement étiquetées afin d’atteindre une haute précision. Or, la collecte de telles données s’avère à la fois coûteuse et chronophage. Pour remédier à ce problème, nous proposons une méthode semi-supervisée visant à réduire considérablement la dépendance aux données étiquetées. La méthode proposée repose sur deux réseaux identiques entraînés conjointement : un réseau enseignant et un réseau étudiant. Le réseau enseignant est entraîné à la fois sur les échantillons étiquetés disponibles et sur les échantillons non étiquetés. Il exploite les échantillons non étiquetés grâce à une formulation de perte qui encourage l’équivalence des estimations sous un ensemble de transformations affines. Le réseau étudiant, quant à lui, est entraîné à l’aide des échantillons non étiquetés, dont les pseudo-étiquettes sont fournies par le réseau enseignant. Lors de l’inférence en phase de test, seul le réseau étudiant est utilisé. Des expériences étendues démontrent que la méthode proposée surpasse largement les états de l’art des méthodes semi-supervisées.