HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

Du rédacteur à l'estimateur de géométrie dense

JiYuan Wang Chunyu Lin Lei Sun Rongying Liu Lang Nie Mingxing Li Kang Liao Xiangxiang Chu Yao Zhao

Du rédacteur à l'estimateur de géométrie dense

Résumé

L’exploitation des connaissances préalables visuelles issues de modèles génératifs texte-à-image (T2I) pré-entraînés a montré un succès significatif dans les tâches de prédiction dense. Toutefois, la prédiction dense est intrinsèquement une tâche image à image, ce qui suggère que les modèles d’édition d’image, plutôt que les modèles génératifs T2I, pourraient constituer une base plus adaptée à la fine-tuning. Motivés par cette observation, nous menons une analyse systématique du comportement de fine-tuning des modèles d’édition et des modèles génératifs pour l’estimation de la géométrie dense. Nos résultats révèlent que les modèles d’édition possèdent des priori structurels inhérents, leur permettant de converger de manière plus stable en « affinant » leurs caractéristiques intrinsèques, et d’atteindre finalement des performances supérieures à celles de leurs homologues génératifs. À partir de ces constatations, nous proposons FE2E, un cadre novateur qui adapte pour la première fois un modèle d’édition avancé basé sur l’architecture Diffusion Transformer (DiT) à la prédiction de géométrie dense. Plus précisément, afin d’ajuster ce modèle d’édition à une tâche déterministe, nous reformulons la fonction de perte initiale de matching de flux en un objectif d’apprentissage « vitesse cohérente ». Par ailleurs, nous utilisons une quantification logarithmique pour résoudre le conflit de précision entre le format natif BFloat16 du modèle d’édition et les exigences élevées de précision de nos tâches. En outre, nous exploitons l’attention globale du DiT pour réaliser, sans coût supplémentaire, une estimation conjointe simultanée de la profondeur et des normales en une seule passe forward, permettant ainsi aux signaux de supervision de s’entraîner mutuellement. Sans augmenter la taille des données d’entraînement, FE2E obtient des améliorations impressionnantes dans la prédiction de profondeur monoscopique et de normales en mode zero-shot sur plusieurs jeux de données. Notamment, il atteint une amélioration de plus de 35 % sur le jeu de données ETH3D, surpassant ainsi la série DepthAnything, entraînée sur 100 fois plus de données. La page du projet est disponible à l’adresse suivante : https://amap-ml.github.io/FE2E/{here}.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp