vor 2 Monaten

Vom Editor zum dichten Geometrieschätzer

Details der Forschungsarbeit anzeigen Code anzeigen

JiYuan Wang Chunyu Lin Lei Sun Rongying Liu Lang Nie Mingxing Li Kang Liao Xiangxiang Chu Yao Zhao

Vom Editor zum dichten Geometrieschätzer

Abstract

Die Nutzung visueller Vorwissen aus vortrainierten text-zu-Bild (T2I)-Generativmodellen hat bei der dichten Vorhersage bereits Erfolg gezeigt. Dichte Vorhersage ist jedoch inhärent eine Bild-zu-Bild-Aufgabe, was nahelegt, dass Bildbearbeitungsmodelle im Vergleich zu T2I-Generativmodellen eine geeigneteren Grundlage für das Feintunen darstellen könnten.Ausgehend von diesem Ansatz führen wir eine systematische Analyse des Feintunings sowohl von Editoren als auch von Generatoren für die dichte Geometrieschätzung durch. Unsere Ergebnisse zeigen, dass Editormodelle inhärente strukturelle Vorwissen besitzen, die es ihnen ermöglichen, durch „Verfeinerung“ ihrer inhärenten Merkmale stabiler zu konvergieren und letztlich eine höhere Leistung als ihre generativen Gegenstücke zu erzielen.Basierend auf diesen Erkenntnissen stellen wir FE2E vor – einen Rahmen, der erstmals ein fortschrittliches Editormodell auf Basis der Diffusion Transformer (DiT)-Architektur für die dichte Geometrieschätzung anpasst. Insbesondere reformulieren wir zur Anpassung des Editormodells an diese deterministische Aufgabe die ursprüngliche Flow-Matching-Verlustfunktion in das neue „konsistente Geschwindigkeits“-Trainingsziel. Zudem verwenden wir logarithmische Quantisierung, um den Präzisionskonflikt zwischen dem nativen BFloat16-Format des Editormodells und den hohen Anforderungen an Präzision in unseren Aufgaben zu lösen.Darüber hinaus nutzen wir die globale Aufmerksamkeit der DiT-Architektur, um in einer einzigen Vorwärtsdurchlauf kostengünstig Tiefen- und Normalvektorschätzungen gemeinsam zu berechnen, wodurch sich die Überwachungssignale gegenseitig verstärken.Ohne die Erweiterung der Trainingsdaten erreicht FE2E beeindruckende Leistungssteigerungen bei der zero-shot-monokularen Tiefenschätzung und Normalvektorschätzung auf mehreren Datensätzen. Insbesondere erzielt es auf dem ETH3D-Datensatz Leistungssteigerungen von über 35 % und übertrifft dabei die DepthAnything-Serie, die auf 100-mal mehr Daten trainiert wurde.Die Projektseite ist unter folgender Adresse zugänglich: https://amap-ml.github.io/FE2E/{here}.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Vom Editor zum dichten Geometrieschätzer

JiYuan Wang Chunyu Lin Lei Sun Rongying Liu Lang Nie Mingxing Li Kang Liao Xiangxiang Chu Yao Zhao

Abstract

KI mit KI entwickeln

Hyper Newsletters