il y a 16 jours

Depth Anything : Libérer le pouvoir des données non étiquetées à grande échelle

Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao

Résumé

Ce travail présente Depth Anything, une solution hautement pratique pour l’estimation de profondeur monocablée robuste. Sans chercher à introduire de nouveaux modules techniques, nous visons à concevoir un modèle fondamental simple mais puissant, capable de traiter n’importe quelle image dans n’importe quel contexte. À cette fin, nous agrandissons le jeu de données en concevant un moteur de données permettant de collecter et d’annoter automatiquement de grandes quantités de données non étiquetées (~62 millions), ce qui élargit considérablement la couverture des données et permet ainsi de réduire l’erreur de généralisation. Nous étudions deux stratégies simples mais efficaces qui rendent l’agrandissement des données prometteur. Premièrement, une cible d’optimisation plus exigeante est créée en exploitant des outils d’augmentation de données, forçant ainsi le modèle à explorer activement des connaissances visuelles supplémentaires et à acquérir des représentations robustes. Deuxièmement, une supervision auxiliaire est développée afin d’imposer au modèle d’hériter de riches prioris sémantiques provenant d’encodeurs pré-entraînés. Nous évaluons de manière extensive ses capacités en zéro-shot, incluant six jeux de données publics et des photos capturées aléatoirement. Le modèle démontre une capacité de généralisation remarquable. En outre, après une fine-tuning à l’aide d’informations de profondeur métrique provenant de NYUv2 et KITTI, de nouveaux états de l’art sont établis. Notre modèle de profondeur amélioré conduit également à un meilleur ControlNet conditionné par la profondeur. Nos modèles sont disponibles à l’adresse suivante : https://github.com/LiheYoung/Depth-Anything.