PrimeDepth : Estimation efficace de la profondeur monoculaire à l’aide d’un préimage de diffusion stable

Ce travail aborde la tâche de l’estimation de profondeur monoscopique en zéro-shot. Une avancée récente dans ce domaine repose sur l’idée d’utiliser des modèles fondamentaux de génération d’images à partir de texte, tels que Stable Diffusion. Ces modèles fondamentaux offrent une représentation d’image riche et générique, ce qui permet de les réadapter en modèle d’estimation de profondeur avec très peu de données d’entraînement, tout en produisant des cartes de profondeur hautement détaillées et en disposant d’une bonne capacité de généralisation. Toutefois, la mise en œuvre de cette idée a jusqu’à présent conduit à des approches dont l’efficacité à l’évaluation est très faible, en raison du processus itératif de débruitage sous-jacent. Dans ce travail, nous proposons une réalisation alternative de cette idée et présentons PrimeDepth, une méthode extrêmement efficace à l’évaluation tout en conservant, voire en améliorant, les avantages des approches fondées sur les diffusion. Notre idée centrale consiste à extraire, à partir de Stable Diffusion, une représentation d’image riche mais figée, en n’exécutant qu’une seule étape de débruitage. Cette représentation, que nous appelons preimage, est ensuite transmise à un réseau de raffinement doté d’un biais inductif architectural, avant d’être utilisée pour la tâche descendante. Nous validons expérimentalement que PrimeDepth est deux ordres de grandeur plus rapide que la méthode de diffusion de pointe, Marigold, tout en étant plus robuste dans des scénarios exigeants et légèrement supérieure sur le plan quantitatif. Ainsi, nous réduisons l’écart par rapport à l’approche actuellement dominante basée sur les données, Depth Anything, qui reste quantitativement supérieure, mais prédit des cartes de profondeur moins détaillées et nécessite 20 fois plus de données étiquetées. En raison de la complémentarité de notre approche, une simple moyenne des prédictions de PrimeDepth et de Depth Anything permet d’obtenir des résultats supérieurs à ceux des deux méthodes individuelles, établissant ainsi un nouveau record de performance dans l’estimation de profondeur monoscopique en zéro-shot. À l’avenir, les approches basées sur les données pourraient également bénéficier de l’intégration de notre preimage.