UniOcc: Vereinheitlichung der visionzentrierten 3D-Belegungsvorhersage durch geometrisches und semantisches Rendern

In diesem technischen Bericht stellen wir unsere Lösung namens UniOCC vor, die für den Vision-Centric 3D-Besetztheitsvorhersage-Track im nuScenes Open Dataset Challenge bei CVPR 2023 entwickelt wurde. Bestehende Methoden zur Besetztheitsvorhersage konzentrieren sich hauptsächlich auf die Optimierung von projizierten Merkmalen im 3D-Volumenraum unter Verwendung von 3D-Besetztheitslabels. Der Generierungsprozess dieser Labels ist jedoch komplex und kostspielig (auf 3D-semantische Annotationen angewiesen) und wird durch die Voxelauflösung begrenzt, sodass sie keine feingranularen räumlichen Semantiken liefern können. Um diese Einschränkung zu überwinden, schlagen wir eine neuartige Unifying Occupancy (UniOcc)-Vorhersagemethode vor, die explizit eine räumliche Geometrieeinschränkung auferlegt und durch Volumenstrahlrasterung feingranulare semantische Überwachung ergänzt. Unsere Methode verbessert die Modellleistung erheblich und zeigt ein vielversprechendes Potenzial zur Reduzierung der Kosten für menschliche Annotationen. Angesichts der aufwendigen Natur der Annotation von 3D-Besetztheit führen wir zudem einen Depth-aware Teacher Student (DTS)-Framework ein, um die Vorhersagegenauigkeit durch die Nutzung unannotierter Daten zu erhöhen. Unsere Lösung erreicht mit einem einzelnen Modell einen mIoU-Wert von 51,27 % auf dem offiziellen Leaderboard und belegt damit den dritten Platz in dieser Herausforderung.