HyperAIHyperAI

Command Palette

Search for a command to run...

PolyMaX: Allgemeine dichte Vorhersage mit Maskentransformer

Zusammenfassung

Dichte Vorhersageaufgaben wie semantische Segmentierung, Tiefenschätzung und Oberflächennormalvorhersage können leicht als Pixelweise Klassifikation (diskrete Ausgaben) oder Regression (kontinuierliche Ausgaben) formuliert werden. Dieses Paradigma der pixelweisen Vorhersage hat aufgrund der Verbreitung von vollständig konvolutionellen Netzen an Popularität gewonnen. Allerdings beobachtet die Gemeinschaft am jüngsten Rand des Segmentierungsaufgabengebiets eine Paradigmenverschiebung vom pixelweisen zur clustergestützten Vorhersage, insbesondere durch die Einführung von Transformer-Architekturen, insbesondere Mask-Transformern, die ein Label direkt für einen Maskenbereich anstelle eines einzelnen Pixels vorhersagen. Trotz dieser Verschiebung dominiert das Paradigma der pixelweisen Vorhersage weiterhin die Benchmarks bei anderen dichten Vorhersageaufgaben, die kontinuierliche Ausgaben erfordern, wie z.B. Tiefenschätzung und Oberflächennormalvorhersage. Inspiriert durch den Erfolg von DORN und AdaBins in der Tiefenschätzung, der durch die Diskretisierung des kontinuierlichen AusgabeRaums erreicht wurde, schlagen wir vor, das clustergestützte Verfahren auf allgemeine dichte Vorhersageaufgaben zu verallgemeinern. Dies ermöglicht es uns, dichte Vorhersageaufgaben im Rahmen des Mask-Transformer-Modells zu vereinen. Bemerkenswerterweise zeigt das resultierende Modell PolyMaX Spitzenleistungen bei drei Benchmarks des NYUD-v2-Datensatzes. Wir hoffen, dass unser einfaches und effektives Design weitere Forschung zur Nutzung von Mask-Transformern für mehr dichte Vorhersageaufgaben anregt. Der Code und das Modell werden veröffentlicht werden.请注意,这里有一些术语的翻译:- Dense prediction tasks: Dichte Vorhersageaufgaben- Semantic segmentation: Semantische Segmentierung- Depth estimation: Tiefenschätzung- Surface normal prediction: Oberflächennormalvorhersage- Fully convolutional networks: Vollständig konvolutionelle Netze- Transformer architectures: Transformer-Architekturen- Mask transformers: Mask-Transformer- Discretizing the continuous output space: Diskretisierung des kontinuierlichen AusgabeRaums- State-of-the-art performance: Spitzenleistung- NYUD-v2 dataset: NYUD-v2-Datensatz如果您有任何特定术语需要进一步解释或调整,请告知我。


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp