PolyMaX: Allgemeine dichte Vorhersage mit Maskentransformer

Dichte Vorhersageaufgaben wie semantische Segmentierung, Tiefenschätzung und Oberflächennormalvorhersage können leicht als Pixelweise Klassifikation (diskrete Ausgaben) oder Regression (kontinuierliche Ausgaben) formuliert werden. Dieses Paradigma der pixelweisen Vorhersage hat aufgrund der Verbreitung von vollständig konvolutionellen Netzen an Popularität gewonnen. Allerdings beobachtet die Gemeinschaft am jüngsten Rand des Segmentierungsaufgabengebiets eine Paradigmenverschiebung vom pixelweisen zur clustergestützten Vorhersage, insbesondere durch die Einführung von Transformer-Architekturen, insbesondere Mask-Transformern, die ein Label direkt für einen Maskenbereich anstelle eines einzelnen Pixels vorhersagen. Trotz dieser Verschiebung dominiert das Paradigma der pixelweisen Vorhersage weiterhin die Benchmarks bei anderen dichten Vorhersageaufgaben, die kontinuierliche Ausgaben erfordern, wie z.B. Tiefenschätzung und Oberflächennormalvorhersage. Inspiriert durch den Erfolg von DORN und AdaBins in der Tiefenschätzung, der durch die Diskretisierung des kontinuierlichen AusgabeRaums erreicht wurde, schlagen wir vor, das clustergestützte Verfahren auf allgemeine dichte Vorhersageaufgaben zu verallgemeinern. Dies ermöglicht es uns, dichte Vorhersageaufgaben im Rahmen des Mask-Transformer-Modells zu vereinen. Bemerkenswerterweise zeigt das resultierende Modell PolyMaX Spitzenleistungen bei drei Benchmarks des NYUD-v2-Datensatzes. Wir hoffen, dass unser einfaches und effektives Design weitere Forschung zur Nutzung von Mask-Transformern für mehr dichte Vorhersageaufgaben anregt. Der Code und das Modell werden veröffentlicht werden.请注意,这里有一些术语的翻译:- Dense prediction tasks: Dichte Vorhersageaufgaben- Semantic segmentation: Semantische Segmentierung- Depth estimation: Tiefenschätzung- Surface normal prediction: Oberflächennormalvorhersage- Fully convolutional networks: Vollständig konvolutionelle Netze- Transformer architectures: Transformer-Architekturen- Mask transformers: Mask-Transformer- Discretizing the continuous output space: Diskretisierung des kontinuierlichen AusgabeRaums- State-of-the-art performance: Spitzenleistung- NYUD-v2 dataset: NYUD-v2-Datensatz如果您有任何特定术语需要进一步解释或调整,请告知我。