HyperAIHyperAI

Command Palette

Search for a command to run...

Diffusionsbasierte RGB-D-Semantische Segmentierung mit deformierbarem Aufmerksamkeits-Transformer

Minh Bui Kostas Alexis

Zusammenfassung

Die visionbasierte Wahrnehmung und Schlussfolgerung ist für die Szenenverstehens in autonomen Systemen von entscheidender Bedeutung. RGB- und Tiefenbilder werden häufig verwendet, um sowohl semantische als auch geometrische Merkmale der Umgebung zu erfassen. Die Entwicklung zuverlässiger Methoden zur Interpretation dieser Daten ist für Anwendungen in der realen Welt entscheidend, in denen störende Messungen oft unvermeidbar sind. In dieser Arbeit stellen wir einen auf Diffusion basierenden Ansatz vor, um das Problem der RGB-D-Semantiksegmentierung anzugehen. Zudem zeigen wir, dass die Verwendung eines Deformable Attention Transformers als Encoder zur Merkmalsextraktion aus Tiefenbildern effektiv die Eigenschaften von ungültigen Bereichen in den Tiefenmessungen erfasst. Unser generativer Ansatz zeigt eine größere Fähigkeit, die zugrundeliegende Verteilung von RGB-D-Bildern zu modellieren, und erreicht dabei eine robuste Leistung in anspruchsvollen Szenarien mit deutlich geringerem Trainingsaufwand im Vergleich zu diskriminativen Methoden. Experimentelle Ergebnisse belegen, dass unsere Methode sowohl auf den NYUv2- als auch auf den SUN-RGBD-Datensätzen Spitzenleistung erzielt – insbesondere in den herausforderndsten Bildteilen dieser Datensätze. Die Projektseite ist unter https://diffusionmms.github.io/ verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp