Command Palette
Search for a command to run...
Vom Editor zum dichten Geometrieschätzer
JiYuan Wang Chunyu Lin Lei Sun Rongying Liu Lang Nie Mingxing Li Kang Liao Xiangxiang Chu Yao Zhao

Abstract
Die Nutzung visueller Vorwissen aus vortrainierten text-zu-Bild (T2I)-Generativmodellen hat bei der dichten Vorhersage bereits Erfolg gezeigt. Dichte Vorhersage ist jedoch inhärent eine Bild-zu-Bild-Aufgabe, was nahelegt, dass Bildbearbeitungsmodelle im Vergleich zu T2I-Generativmodellen eine geeigneteren Grundlage für das Feintunen darstellen könnten.Ausgehend von diesem Ansatz führen wir eine systematische Analyse des Feintunings sowohl von Editoren als auch von Generatoren für die dichte Geometrieschätzung durch. Unsere Ergebnisse zeigen, dass Editormodelle inhärente strukturelle Vorwissen besitzen, die es ihnen ermöglichen, durch „Verfeinerung“ ihrer inhärenten Merkmale stabiler zu konvergieren und letztlich eine höhere Leistung als ihre generativen Gegenstücke zu erzielen.Basierend auf diesen Erkenntnissen stellen wir FE2E vor – einen Rahmen, der erstmals ein fortschrittliches Editormodell auf Basis der Diffusion Transformer (DiT)-Architektur für die dichte Geometrieschätzung anpasst. Insbesondere reformulieren wir zur Anpassung des Editormodells an diese deterministische Aufgabe die ursprüngliche Flow-Matching-Verlustfunktion in das neue „konsistente Geschwindigkeits“-Trainingsziel. Zudem verwenden wir logarithmische Quantisierung, um den Präzisionskonflikt zwischen dem nativen BFloat16-Format des Editormodells und den hohen Anforderungen an Präzision in unseren Aufgaben zu lösen.Darüber hinaus nutzen wir die globale Aufmerksamkeit der DiT-Architektur, um in einer einzigen Vorwärtsdurchlauf kostengünstig Tiefen- und Normalvektorschätzungen gemeinsam zu berechnen, wodurch sich die Überwachungssignale gegenseitig verstärken.Ohne die Erweiterung der Trainingsdaten erreicht FE2E beeindruckende Leistungssteigerungen bei der zero-shot-monokularen Tiefenschätzung und Normalvektorschätzung auf mehreren Datensätzen. Insbesondere erzielt es auf dem ETH3D-Datensatz Leistungssteigerungen von über 35 % und übertrifft dabei die DepthAnything-Serie, die auf 100-mal mehr Daten trainiert wurde.Die Projektseite ist unter folgender Adresse zugänglich: https://amap-ml.github.io/FE2E/{here}.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.