HyperAIHyperAI
il y a 17 jours

Récurrence sans récurrence : détection stable des repères vidéo avec des modèles à équilibre profond

Paul Micaelli, Arash Vahdat, Hongxu Yin, Jan Kautz, Pavlo Molchanov
Récurrence sans récurrence : détection stable des repères vidéo avec des modèles à équilibre profond
Résumé

La computation en cascade, dans laquelle les prédictions sont successivement affinées au fil de plusieurs étapes, constitue un thème récurrent tout au long du développement des modèles de détection de points clés. Dans ce travail, nous montrons qu’un modèle récemment proposé, le Deep Equilibrium Model (DEQ), peut naturellement être adapté à ce type de calcul. Notre modèle LDEQ (Landmark DEQ) atteint des performances de pointe sur le défi du jeu de données WFLW pour la détection faciale, avec un taux d’erreur normalisée de 3,92 NME, tout en utilisant moins de paramètres et un coût mémoire d’apprentissage de l’ordre de $\mathcal{O}(1)$ en fonction du nombre de modules récurrents. En outre, nous démontrons que les DEQ sont particulièrement adaptés à la détection de points clés dans les vidéos. En pratique, l’apprentissage est généralement effectué sur des images fixes en raison du manque de vidéos annotées. Cela peut entraîner un effet de « clignotement » au moment de l’inférence sur vidéo, où le modèle oscille rapidement entre différentes solutions plausibles d’un cadre à l’autre. En reformulant les DEQ comme un problème d’optimisation sous contrainte, nous simulons une récurrence au moment de l’inférence, malgré l’absence de données temporelles lors de l’apprentissage. Ce paradigme, appelé « Répétition sans récurrence » (RwR), permet de réduire significativement le clignotement des points clés. Nous introduisons pour cela une nouvelle métrique, la « moyenne normalisée du clignotement » (NMF), et contribuons à la mise à disposition d’un nouveau jeu de données vidéo pour la détection faciale (WFLW-V), spécifiquement conçu pour évaluer l’incertitude des points clés. Sur le sous-ensemble difficile de WFLW-V, composé de 500 vidéos, notre LDEQ utilisant le RwR améliore respectivement le NME et le NMF de 10 % et 13 % par rapport au modèle le plus performant publié précédemment, qui utilise un filtre conventionnel ajusté manuellement.