HyperAIHyperAI

Command Palette

Search for a command to run...

ECoDepth : Conditionnement efficace des modèles de diffusion pour l'estimation de profondeur à partir d'une seule vue

Suraj Patni Aradhye Agarwal Chetan Arora

Résumé

En l’absence de cues de parallaxe, un modèle d’estimation de profondeur à partir d’une seule image basé sur l’apprentissage (SIDE) dépend fortement des cues d’ombrage et contextuelles présentes dans l’image. Bien que cette simplicité soit attrayante, il est nécessaire de former de tels modèles sur des jeux de données volumineux et variés, dont la collecte s’avère difficile. Il a été démontré que l’utilisation d’embeddings issus de modèles fondamentaux pré-entraînés, tels que CLIP, améliore le transfert zéro-shot dans plusieurs applications. Inspirés par ces résultats, nous explorons dans notre article l’usage de priorités globales d’image générées à partir d’un modèle ViT pré-entraîné afin de fournir des informations contextuelles plus détaillées. Nous affirmons qu’un vecteur d’embedding issu d’un modèle ViT pré-entraîné sur un grand jeu de données capture davantage d’informations pertinentes pour le SIDE que la méthode classique consistant à générer des légendes synthétiques d’image, puis à extraire des embeddings textuels via CLIP. À partir de cette idée, nous proposons un nouveau modèle SIDE reposant sur une architecture à diffusion conditionnée par des embeddings ViT. Notre approche établit un nouveau record (SOTA) pour le SIDE sur le jeu de données NYUv2, atteignant un erreur Abs Rel de 0,059 (amélioration de 14 % par rapport à 0,069 du SOTA actuel, VPD), et une erreur Sq Rel de 0,139 sur KITTI (amélioration de 2 % par rapport à 0,142 du SOTA actuel, GEDepth). En ce qui concerne le transfert zéro-shot avec un modèle entraîné sur NYUv2, nous rapportons une amélioration moyenne relative de (20 %, 23 %, 81 %, 25 %) par rapport à NeWCRFs sur les jeux de données (Sun-RGBD, iBims1, DIODE, HyperSim), contre (16 %, 18 %, 45 %, 9 %) pour ZoeDepth. La page du projet est disponible à l’adresse suivante : https://ecodepth-iitd.github.io


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp