Graphe d’association 4D pour la capture de mouvement en temps réel de plusieurs personnes utilisant plusieurs caméras vidéo

Cet article présente un algorithme novateur de capture de mouvement en temps réel pour plusieurs personnes, basé sur des entrées vidéo multivues. En raison des occlusions importantes présentes dans chaque vue, une optimisation conjointe sur les images multivues et plusieurs trames temporelles est indispensable, ce qui pose un défi fondamental en matière d’efficacité en temps réel. À cet effet, pour la première fois, nous unifions le traitement par vue (per-view parsing), le correspondance entre vues (cross-view matching) et le suivi temporel dans un cadre d’optimisation unique : un graphe d’association 4D, où chaque dimension (espace image, vue et temps) est traitée de manière équivalente et simultanée. Pour résoudre efficacement ce graphe d’association 4D, nous introduisons également une méthode de segmentation par paquets de membres 4D fondée sur une recherche heuristique, suivie d’un assemblage des paquets de membres via une nouvelle version de l’algorithme de Kruskal pour les paquets (bundle Kruskal’s algorithm). Notre méthode permet de réaliser un système de capture de mouvement en temps réel fonctionnant à 30 fps, utilisant 5 caméras sur une scène avec 5 personnes. Grâce à la contrainte unifiée de parsing, de correspondance et de suivi, notre approche est robuste aux détections bruitées et parvient à une reconstruction de posture en ligne de haute qualité. La méthode proposée surpasser quantitativement les états de l’art actuels, même sans recourir à des informations d’apparence de haut niveau. Enfin, nous contribuons également à la communauté scientifique en publiant un ensemble de données vidéo multivues synchronisées avec un système de capture de mouvement à marqueurs, destiné à l’évaluation rigoureuse.