CleanDIFT: Diffusionsmerkmale ohne Rauschen

Interne Merkmale von groß angelegten vortrainierten Diffusionsmodellen wurden kürzlich als leistungsstarke semantische Deskriptoren für eine Vielzahl an nachgelagerten Aufgaben etabliert. Arbeiten, die diese Merkmale verwenden, müssen in der Regel Rauschen zu den Bildern hinzufügen, bevor sie durch das Modell geleitet werden, um die semantischen Merkmale zu erhalten, da die Modelle bei Bildern mit wenig oder keinem Rauschen nicht die nützlichsten Merkmale liefern. Wir zeigen, dass dieses Rauschen einen kritischen Einfluss auf die Nützlichkeit dieser Merkmale hat, der nicht durch das Ensemble von verschiedenen zufälligen Rauschsignalen behoben werden kann. Um dieses Problem anzugehen, führen wir eine leichte, unüberwachte Feinabstimmungsmethode ein, die es Diffusionsbackbones ermöglicht, hochwertige, rauscharme semantische Merkmale bereitzustellen. Wir demonstrieren, dass diese Merkmale in einer Vielzahl von Extraktionskonfigurationen und nachgelagerten Aufgaben deutlich besser abschneiden als frühere Diffusionsmerkmale und sogar ensemblebasierte Methoden bei einem Bruchteil des Aufwands übertreffen.