Masked Scene Contrast: Ein skalierbarer Rahmen für unsupervisierte 3D-Darstellungslernung

Als wegweisende Arbeit führt PointContrast eine unsupervisierte 3D-Darstellungslernung durch, indem kontrastives Lernen auf rohen RGB-D-Bildern angewendet wird, und belegt dessen Wirksamkeit bei verschiedenen nachgeschalteten Aufgaben. Dennoch ist der Trend hin zu großskaligem unsupervisiertem Lernen im 3D-Bereich bislang nicht entstanden, hauptsächlich aufgrund zweier Hindernisse: der Ineffizienz der Zuordnung von RGB-D-Bildern als kontrastive Ansichten sowie des störenden Phänomens der Moden-Kollaps, das in früheren Arbeiten bereits beschrieben wurde. Indem wir diese beiden Hindernisse in empirische Fortschrittssteine verwandeln, schlagen wir zunächst einen effizienten und wirksamen kontrastiven Lernrahmen vor, der kontrastive Ansichten direkt auf punktewolkenbasierten Szenen durch eine sorgfältig gestaltete Daten-Augmentierungspipeline und eine praktikable Ansichts-Mischstrategie generiert. Zweitens führen wir eine rekonstruktive Lernkomponente innerhalb des kontrastiven Lernrahmens ein, die durch eine präzise Gestaltung von kontrastiven Cross-Masken darauf abzielt, die Farbe der Punkte und die Normale von Surfels wiederherzustellen. Der vorgeschlagene Masked Scene Contrast (MSC)-Rahmen ist in der Lage, umfassende 3D-Darstellungen effizienter und effektiver zu extrahieren. Er beschleunigt den Vortrainingsprozess mindestens um das Dreifache und erreicht gleichzeitig eine unangetastete Leistung im Vergleich zu vorherigen Ansätzen. Darüber hinaus ermöglicht MSC eine großskalige Vortrainingsphase über mehrere Datensätze hinweg, was die Leistung weiter steigert und state-of-the-art Ergebnisse bei mehreren nachgeschalteten Aufgaben erzielt, beispielsweise 75,5 % mIoU auf dem Validierungssatz der ScanNet-Semantiksegmentierung.