FeatUp: Ein modellagnostisches Framework für Merkmale in beliebiger Auflösung

Tiefe Merkmale sind ein Eckpfeiler der Forschung im Bereich Computer Vision, da sie Bildsemantik erfassen und der Community ermöglichen, Downstream-Aufgaben auch im Zero- oder Few-Shot-Regime zu lösen. Diese Merkmale fehlen jedoch oft die räumliche Auflösung, um dichte Vorhersageaufgaben wie Segmentierung und Tiefenschätzung direkt durchzuführen, da Modelle Informationen über große Bereiche stark poolen. In dieser Arbeit stellen wir FeatUp vor, einen aufgabeneutralen und modellneutralen Rahmen zur Wiederherstellung verlorener räumlicher Informationen in tiefen Merkmalen. Wir führen zwei Varianten von FeatUp ein: eine, die Merkmale mit einem hochauflösenden Signal in einem einzigen Vorwärtsdurchgang leitet, und eine, die ein implizites Modell an ein einzelnes Bild anpasst, um Merkmale in beliebiger Auflösung zu rekonstruieren. Beide Ansätze verwenden einen multiview-konsistenten Verlust mit tiefgreifenden Analogien zu NeRFs (Neural Radiance Fields). Unsere Merkmale behalten ihre ursprüngliche Semantik und können in bestehende Anwendungen eingefügt werden, um Auflösungs- und Leistungsverbesserungen zu erzielen, ohne dass erneutes Training erforderlich ist. Wir zeigen, dass FeatUp bei der Generierung von Klassenaktivierungskarten, Transfer-Lernen für Segmentierung und Tiefenschätzung sowie End-to-End-Training für semantische Segmentierung deutlich besser abschneidet als andere Ansätze zur Merkmalaufsampleung und Bildsuperresolution.