HyperAIHyperAI

Command Palette

Search for a command to run...

Kontext- und Geometriebewusster Voxel-Transformer für die Semantische Szenevervollständigung

Zhu Yu Runmin Zhang Jiacheng Ying Junchen Yu Xiaohai Hu Lun Luo Si-Yuan Cao Hui-Liang Shen

Zusammenfassung

Die visionbasierte semantische Szenevervollständigung (SSC) hat aufgrund ihrer weit verbreiteten Anwendungen in verschiedenen 3D-Wahrnehmungsaufgaben viel Aufmerksamkeit erhalten. Bestehende Ansätze von spärlich zu dicht verwenden in der Regel kontextunabhängige Abfragen, die über verschiedene Eingabebilder geteilt werden. Dies führt dazu, dass Unterschiede zwischen ihnen nicht erfasst werden, da die Fokusregionen verschiedener Eingaben variieren und möglicherweise zu ungerichteter Feature-Aggregation durch Kreuzaufmerksamkeit (cross-attention) führen. Zudem kann das Fehlen von Tiefeninformationen dazu führen, dass Punkte auf die BildEbene projiziert werden, die dieselbe 2D-Position oder ähnliche Stichprobenpunkte im Feature-Map haben, was zu Tiefen-Unschärfen führt.In dieser Arbeit stellen wir einen neuen kontext- und geometriebewussten Voxel-Transformer vor. Er nutzt einen kontextbewussten Abfragegenerator, um kontextabhängige Abfragen für jedes einzelne Eingabebild anzupassen und deren einzigartige Merkmale effektiv zu erfassen sowie Informationen innerhalb des Interessengebiets zusammenzutragen. Darüber hinaus erweitert er die deformierbare Kreuzaufmerksamkeit (deformable cross-attention) vom 2D-Bildraum in den 3D-Pixelraum, was es ermöglicht, Punkte mit ähnlichen Bildkoordinaten basierend auf ihren Tiefenkoordinaten zu differenzieren.Aufbauend auf diesem Modul führen wir ein neuronales Netzwerk namens CGFormer ein, um semantische Szenevervollständigung zu erreichen. Gleichzeitig nutzt CGFormer mehrere 3D-Darstellungen (d.h., Voxel und TPV), um die semantischen und geometrischen Darstellungsfähigkeiten des transformierten 3D-Volumens sowohl aus lokaler als auch aus globaler Perspektive zu verbessern. Experimentelle Ergebnisse zeigen, dass CGFormer den aktuellen Stand der Technik auf den Benchmarks SemanticKITTI und SSCBench-KITTI-360 erreicht und sogar übertreffen kann. Es erzielt eine mIoU von 16,87 und 20,05 sowie eine IoU von 45,99 und 48,07 jeweils. Bemerkenswerterweise übertrifft CGFormer sogar Ansätze, die zeitliche Bilder als Eingabe verwenden oder viel größere Bildbackbone-Netzwerke einsetzen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp