HyperAIHyperAI
vor 13 Tagen

Untersuchung dateneffizienter 3D-Szenenverstehens mit kontrastiven Szenenkontexten

Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie
Untersuchung dateneffizienter 3D-Szenenverstehens mit kontrastiven Szenenkontexten
Abstract

Der rasante Fortschritt im Bereich des 3D-Szenenverstehens geht mit einem wachsenden Bedarf an Daten einher; die Erfassung und Annotation von 3D-Szenen (z. B. Punktwolken) ist jedoch bekanntermaßen äußerst schwierig. So können beispielsweise die Anzahl an zugänglichen und scannbaren Szenen (z. B. Innenräume) begrenzt sein; selbst bei ausreichendem Datenvolumen erfordert die Erhebung von 3D-Labels (z. B. Instanzmasken) aufwendige menschliche Arbeit. In diesem Paper untersuchen wir dateneffizientes Lernen für 3D-Punktwolken. Als erster Schritt in diese Richtung stellen wir Contrastive Scene Contexts vor, eine 3D-Vortrainierungs-Methode, die sowohl punktuelle Korrespondenzen als auch räumliche Kontexte innerhalb einer Szene nutzt. Unsere Methode erreicht state-of-the-art-Ergebnisse auf einer Reihe von Benchmarks, bei denen Trainingsdaten oder Labels knapp sind. Unsere Studie zeigt, dass eine umfassende Annotation von 3D-Punktwolken möglicherweise unnötig ist; bemerkenswerterweise erreichen wir auf ScanNet bereits mit nur 0,1 % der Punktlabels 89 % (Instanzsegmentierung) und 96 % (semantische Segmentierung) der Leistung des Baseline-Modells, das vollständige Annotationen verwendet.