Kontext- und Geometriebewusster Voxel-Transformer für die Semantische Szenevervollständigung

Die visionbasierte semantische Szenevervollständigung (SSC) hat aufgrund ihrer weit verbreiteten Anwendungen in verschiedenen 3D-Wahrnehmungsaufgaben viel Aufmerksamkeit erhalten. Bestehende Ansätze von spärlich zu dicht verwenden in der Regel kontextunabhängige Abfragen, die über verschiedene Eingabebilder geteilt werden. Dies führt dazu, dass Unterschiede zwischen ihnen nicht erfasst werden, da die Fokusregionen verschiedener Eingaben variieren und möglicherweise zu ungerichteter Feature-Aggregation durch Kreuzaufmerksamkeit (cross-attention) führen. Zudem kann das Fehlen von Tiefeninformationen dazu führen, dass Punkte auf die BildEbene projiziert werden, die dieselbe 2D-Position oder ähnliche Stichprobenpunkte im Feature-Map haben, was zu Tiefen-Unschärfen führt.In dieser Arbeit stellen wir einen neuen kontext- und geometriebewussten Voxel-Transformer vor. Er nutzt einen kontextbewussten Abfragegenerator, um kontextabhängige Abfragen für jedes einzelne Eingabebild anzupassen und deren einzigartige Merkmale effektiv zu erfassen sowie Informationen innerhalb des Interessengebiets zusammenzutragen. Darüber hinaus erweitert er die deformierbare Kreuzaufmerksamkeit (deformable cross-attention) vom 2D-Bildraum in den 3D-Pixelraum, was es ermöglicht, Punkte mit ähnlichen Bildkoordinaten basierend auf ihren Tiefenkoordinaten zu differenzieren.Aufbauend auf diesem Modul führen wir ein neuronales Netzwerk namens CGFormer ein, um semantische Szenevervollständigung zu erreichen. Gleichzeitig nutzt CGFormer mehrere 3D-Darstellungen (d.h., Voxel und TPV), um die semantischen und geometrischen Darstellungsfähigkeiten des transformierten 3D-Volumens sowohl aus lokaler als auch aus globaler Perspektive zu verbessern. Experimentelle Ergebnisse zeigen, dass CGFormer den aktuellen Stand der Technik auf den Benchmarks SemanticKITTI und SSCBench-KITTI-360 erreicht und sogar übertreffen kann. Es erzielt eine mIoU von 16,87 und 20,05 sowie eine IoU von 45,99 und 48,07 jeweils. Bemerkenswerterweise übertrifft CGFormer sogar Ansätze, die zeitliche Bilder als Eingabe verwenden oder viel größere Bildbackbone-Netzwerke einsetzen.