Vers une estimation robuste et fluide de la posture 3D de plusieurs personnes à partir de vidéos monoculaires dans des conditions réelles

L'estimation de la posture 3D est une tâche inestimable en vision par ordinateur avec diverses applications pratiques. En particulier, l'estimation de la posture 3D pour plusieurs personnes à partir d'une vidéo monoculaire (3DMPPE) est particulièrement complexe et reste largement inexplorée, loin d'être applicable aux scénarios réels. Nous identifions trois problèmes non résolus des méthodes existantes : le manque de robustesse face aux vues inconnues lors de l'entraînement, la vulnérabilité aux occultations, et les tremblements importants dans les résultats. Pour y remédier, nous proposons POTR-3D, la première réalisation d'un modèle de transposition séquence-à-séquence 2D-3D pour la 3DMPPE, alimenté par une stratégie novatrice d'augmentation de données sensible à la géométrie, capable de générer des données illimitées avec une variété de vues tout en tenant compte du plan du sol et des occultations.À travers des expériences approfondies, nous vérifions que le modèle proposé et l'augmentation de données généralisent robustement à diverses vues inconnues, récupèrent les postures efficacement malgré des occultations importantes, et produisent des résultats plus naturels et fluides. L'efficacité de notre approche est confirmée non seulement par des performances au niveau de l'état de l'art sur des benchmarks publics, mais aussi par des résultats qualitatifs sur des vidéos plus complexes issues d'environnements réels. Des démonstrations vidéo sont disponibles à l'adresse suivante : https://www.youtube.com/@potr3d.