HyperAIHyperAI
il y a 11 jours

Réaffectation des générateurs d'images basés sur la diffusion pour l'estimation de profondeur monoscopique

Bingxin Ke, Anton Obukhov, Shengyu Huang, Nando Metzger, Rodrigo Caye Daudt, Konrad Schindler
Réaffectation des générateurs d'images basés sur la diffusion pour l'estimation de profondeur monoscopique
Résumé

L’estimation de profondeur monoscopique est une tâche fondamentale en vision par ordinateur. Récupérer la profondeur 3D à partir d’une seule image est un problème géométriquement mal posé et nécessite une compréhension du scénario, ce qui explique que l’essor du deep learning ait permis une percée dans ce domaine. Les progrès remarquables des estimateurs de profondeur monoscopique ont suivi la croissance de la capacité des modèles, passant de réseaux de neurones convolutifs (CNN) relativement modestes aux architectures Transformer de grande taille. Toutefois, ces estimateurs peinent souvent face à des images comportant des contenus ou des dispositions inconnus, car leurs connaissances du monde visuel sont limitées par les données observées lors de l’entraînement, et sont mises à l’épreuve par la généralisation zéro-shot à de nouveaux domaines. Cela nous a incités à explorer si les connaissances a priori étendues capturées dans les récents modèles génératifs à diffusion peuvent permettre une estimation de profondeur plus performante et plus généralisable. Nous introduisons Marigold, une méthode d’estimation de profondeur monoscopique invariante par affinité, dérivée de Stable Diffusion et conservant ainsi ses connaissances a priori riches. Ce modèle peut être affiné en quelques jours sur une seule carte GPU, en utilisant uniquement des données synthétiques. Il atteint des performances de pointe sur une large gamme de jeux de données, avec des gains de performance dépassant 20 % dans certains cas particuliers. Page du projet : https://marigoldmonodepth.github.io.

Réaffectation des générateurs d'images basés sur la diffusion pour l'estimation de profondeur monoscopique | Articles de recherche récents | HyperAI