Symphonisierung der 3D semantischen Szenevollständigung mit kontextuellen Instanzabfragen

Die 3D-Semantische Szeneergänzung (SSC) ist als ein neues und zentrales Unterfangen im Bereich der autonomen Fahrzeuge hervorgetreten, mit dem Ziel, die Voxelbesetzung innerhalb volumnetrischer Szenen vorherzusagen. Bestehende Methoden konzentrieren sich jedoch hauptsächlich auf die Aggregation von Voxel-Features, während sie Instanzsemantik und Szenekontext vernachlässigen. In dieser Arbeit stellen wir ein neuartiges Paradigma vor, das als Symphonies (Szene-aus-Instanzen) bezeichnet wird und sich mit der Integration von Instanzabfragen zur Koordination der 2D-zu-3D-Rekonstruktion und der 3D-Szenenmodellierung beschäftigt. Durch die Nutzung unseres vorgeschlagenen Seriellen Instanzpropagierten Aufmerksamkeitsmechanismus kodiert Symphonies dynamisch instanzzentrierte Semantiken, was eine komplexe Interaktion zwischen bildbasierten und volumnetrischen Domänen ermöglicht. Gleichzeitig ermöglicht Symphonies durch die effiziente Fusion von Instanzabfragen eine umfassende Szeneverstehensfähigkeit, indem es geometrische Unsicherheiten wie Verdeckungen und Perspektivfehler durch kontextuelle Szeneanalyse reduziert. Experimentelle Ergebnisse zeigen, dass Symphonies den aktuellen Stand der Technik auf anspruchsvollen Benchmarks wie SemanticKITTI und SSCBench-KITTI-360 erreicht, wobei es bemerkenswerte mIoU-Werte von 15,04 und 18,58 erzielt. Diese Ergebnisse unterstreichen die vielversprechenden Fortschritte des Paradigmas. Der Quellcode ist unter https://github.com/hustvl/Symphonies verfügbar.