Command Palette
Search for a command to run...
Depth Anything 3 : Récupération de l'espace visuel à partir de n'importe quel point de vue
Haotong Lin Sili Chen Junhao Liew Donny Y. Chen Zhenyu Li Guang Shi Jiashi Feng Bingyi Kang

Résumé
Nous présentons Depth Anything 3 (DA3), un modèle capable de prédire une géométrie spatialement cohérente à partir d’un nombre arbitraire d’entrées visuelles, qu’avec ou sans connaissances des poses de caméra. Dans une optique de modélisation minimale, DA3 fournit deux constatations clés : un simple transformateur (par exemple, un encodeur DINO vanilla) est suffisant comme architecture principale sans nécessiter de spécialisation architecturale, et une seule cible de prédiction de profondeur-rayon élimine la nécessité d’un apprentissage multi-tâches complexe. Grâce à notre paradigme d’entraînement enseignant-étudiant, le modèle atteint un niveau de détail et de généralisation équivalent à celui de Depth Anything 2 (DA2). Nous établissons une nouvelle référence en géométrie visuelle couvrant l’estimation de pose de caméra, la géométrie à vue multiple et le rendu visuel. Sur cette référence, DA3 établit un nouveau record sur toutes les tâches, dépassant l’ancien état de l’art (VGGT) d’une moyenne de 44,3 % en précision de pose de caméra et de 25,1 % en précision géométrique. En outre, il surpasse DA2 dans l’estimation de profondeur monoculaire. Tous les modèles sont entraînés exclusivement sur des jeux de données académiques publics.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.