HyperAIHyperAI
il y a 9 jours

SRNet : Amélioration de la généralisation en estimation de la posture 3D humaine via une approche split-and-recombine

Ailing Zeng, Xiao Sun, Fuyang Huang, Minhao Liu, Qiang Xu, Stephen Lin
SRNet : Amélioration de la généralisation en estimation de la posture 3D humaine via une approche split-and-recombine
Résumé

Les poses humaines rares ou inconnues dans un jeu d’entraînement posent un défi important pour un réseau de prédiction. À l’instar du problème de distribution à queue longue en reconnaissance visuelle, le faible nombre d’exemples pour de telles poses limite la capacité des réseaux à les modéliser efficacement. De manière intéressante, les distributions locales de poses souffrent moins de ce problème de queue longue : en effet, certaines configurations locales des articulations au sein d’une pose rare peuvent apparaître dans d’autres poses présentes dans le jeu d’entraînement, ce qui les rend moins rares. Nous proposons d’exploiter ce phénomène afin d’améliorer la généralisation aux poses rares et inconnues. Plus précisément, notre méthode divise le corps en régions locales et les traite via des branches de réseau distinctes, en exploitant le fait qu’une position articulaire dépend principalement des articulations situées dans sa région corporelle locale. La cohérence globale est préservée en recombinant, pour chaque branche, un contexte global issu des autres parties du corps sous forme d’un vecteur de faible dimension. Grâce à cette réduction de dimensionnalité des zones corporelles moins pertinentes, la distribution des données d’entraînement à l’intérieur des branches de réseau reflète davantage les statistiques des poses locales plutôt que celles des poses globales du corps, sans pour autant sacrifier les informations essentielles pour l’inférence des articulations. L’approche proposée, appelée SRNet (Split-and-Recombine Network), peut être facilement adaptée aux modèles à image unique comme aux modèles temporels, et elle permet d’obtenir des améliorations significatives dans la prédiction des poses rares et inconnues.