HyperAIHyperAI
il y a 2 mois

L’ajustement fin des modèles de diffusion conditionnels aux images est plus simple que vous ne le pensez.

Gonzalo Martin Garcia, Karim Abou Zeid, Christian Schmidt, Daan de Geus, Alexander Hermans, Bastian Leibe
L’ajustement fin des modèles de diffusion conditionnels aux images est plus simple que vous ne le pensez.
Résumé

Des travaux récents ont montré que les grands modèles de diffusion peuvent être réutilisés comme estimateurs de profondeur monoculaire très précis en reformulant l'estimation de la profondeur comme une tâche de génération d'images conditionnelle à une image. Bien que le modèle proposé ait obtenu des résultats d'état de l'art, les exigences computationnelles élevées dues à l'inférence multistep en ont limité l'utilisation dans de nombreux scénarios. Dans cet article, nous démontrons que l'inefficacité perçue était due à un défaut dans le pipeline d'inférence qui n'avait jusqu'à présent pas été remarqué. Le modèle fixe offre des performances comparables à la meilleure configuration précédemment rapportée tout en étant plus de 200 fois plus rapide. Pour optimiser les performances des tâches downstream, nous effectuons un ajustement fine-tuning bout à bout au-dessus du modèle en un seul step avec des pertes spécifiques à la tâche et obtenons un modèle déterministe qui surpasse tous les autres modèles basés sur la diffusion pour l'estimation de la profondeur et des normales sur des benchmarks zero-shot courants. Nous constatons avec surprise que ce protocole d'ajustement fine-tuning fonctionne également directement sur Stable Diffusion (Stable Diffusion) et atteint des performances comparables aux modèles actuels d'état de l'art basés sur la diffusion pour l'estimation de la profondeur et des normales, remettant ainsi en question certaines conclusions tirées des travaux antérieurs.