vor 2 Monaten

Feinabstimmung von bildbedingten Diffusionsmodellen ist einfacher, als Sie denken.

Gonzalo Martin Garcia, Karim Abou Zeid, Christian Schmidt, Daan de Geus, Alexander Hermans, Bastian Leibe

Abstract

Kürzliche Forschungsarbeiten haben gezeigt, dass große Diffusionsmodelle als hochpräzise monokulare Tiefenschätzer wiederverwendet werden können, indem die Tiefenschätzung als eine bildbedingte Bildgenerierungsaufgabe formuliert wird. Obwohl das vorgeschlagene Modell den Stand der Technik erreichte, beschränkten hohe Rechenanforderungen aufgrund der mehrstufigen Inferenz dessen Einsatz in vielen Szenarien. In dieser Arbeit zeigen wir, dass die wahrgenommene Ineffizienz durch einen bisher unbemerkt gebliebenen Fehler im Inferenzpipeline verursacht wurde. Das fixierte Modell erzielt vergleichbare Ergebnisse wie die beste bisher gemeldete Konfiguration und ist dabei mehr als 200-mal schneller. Um die Leistung bei nachgelagerten Aufgaben zu optimieren, führen wir ein end-to-end Feinabstimmung (fine-tuning) des Einzelschrittmodells mit aufgabenspezifischen Verlustfunktionen durch und erhalten so ein deterministisches Modell, das alle anderen diffusionsbasierten Tiefen- und Normalenschätzmodelle in gängigen Zero-Shot-Benchmarks übertrifft. Überraschenderweise stellen wir fest, dass dieses Feinabstimmungsprotokoll auch direkt auf Stable Diffusion angewendet werden kann und vergleichbare Leistungen wie aktuelle standesmäßige diffusionsbasierte Tiefen- und Normalenschätzmodelle erzielt, was einige der Schlussfolgerungen aus früheren Arbeiten in Frage stellt.