HyperAIHyperAI

Command Palette

Search for a command to run...

Récurrence sans récurrence : détection stable des repères vidéo avec des modèles à équilibre profond

Paul Micaelli Arash Vahdat Hongxu Yin Jan Kautz Pavlo Molchanov

Résumé

La computation en cascade, dans laquelle les prédictions sont successivement affinées au fil de plusieurs étapes, constitue un thème récurrent tout au long du développement des modèles de détection de points clés. Dans ce travail, nous montrons qu’un modèle récemment proposé, le Deep Equilibrium Model (DEQ), peut naturellement être adapté à ce type de calcul. Notre modèle LDEQ (Landmark DEQ) atteint des performances de pointe sur le défi du jeu de données WFLW pour la détection faciale, avec un taux d’erreur normalisée de 3,92 NME, tout en utilisant moins de paramètres et un coût mémoire d’apprentissage de l’ordre de O(1)\mathcal{O}(1)O(1) en fonction du nombre de modules récurrents. En outre, nous démontrons que les DEQ sont particulièrement adaptés à la détection de points clés dans les vidéos. En pratique, l’apprentissage est généralement effectué sur des images fixes en raison du manque de vidéos annotées. Cela peut entraîner un effet de « clignotement » au moment de l’inférence sur vidéo, où le modèle oscille rapidement entre différentes solutions plausibles d’un cadre à l’autre. En reformulant les DEQ comme un problème d’optimisation sous contrainte, nous simulons une récurrence au moment de l’inférence, malgré l’absence de données temporelles lors de l’apprentissage. Ce paradigme, appelé « Répétition sans récurrence » (RwR), permet de réduire significativement le clignotement des points clés. Nous introduisons pour cela une nouvelle métrique, la « moyenne normalisée du clignotement » (NMF), et contribuons à la mise à disposition d’un nouveau jeu de données vidéo pour la détection faciale (WFLW-V), spécifiquement conçu pour évaluer l’incertitude des points clés. Sur le sous-ensemble difficile de WFLW-V, composé de 500 vidéos, notre LDEQ utilisant le RwR améliore respectivement le NME et le NMF de 10 % et 13 % par rapport au modèle le plus performant publié précédemment, qui utilise un filtre conventionnel ajusté manuellement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp