ODIN: Ein einziges Modell für 2D- und 3D-Segmentierung

Zustandsderkunst-Modelle auf aktuellen 3D-Segmentierungsbenchmarks wie ScanNet verarbeiten und klassifizieren 3D-Punktwolken, die durch die Nachbearbeitung von erfassten Multiview-RGB-D-Bildern erhalten werden. Sie werden in der Regel im gleichen Bereich trainiert, verzichten auf groß angelegte 2D-Vorabtrainings und übertreffen Alternativen, die die posierten RGB-D-Multiview-Bilder stattdessen featurisieren. Die Leistungsunterschiede zwischen Methoden, die posierte Bilder und nachbearbeitete 3D-Punktwolken verarbeiten, haben den Glauben gefördert, dass 2D- und 3D-Wahrnehmung unterschiedliche Modellarchitekturen erfordern. In dieser Arbeit stellen wir diese Ansicht in Frage und schlagen ODIN (Omni-Dimensional INstance Segmentation) vor, ein Modell, das sowohl 2D-RGB-Bilder als auch 3D-Punktwolken segmentieren und klassifizieren kann. Dies geschieht durch eine Transformer-Architektur, die sich abwechselnd mit der Fusion von 2D-Innenansichten-Informationen und 3D-Kreisansichten-Informationen beschäftigt. Unser Modell differenziert zwischen 2D- und 3D-Featureoperationen durch die positionellen Codierungen der beteiligten Tokens, wobei Pixelkoordinaten für 2D-Patch-Tokens und 3D-Koordinaten für 3D-Feature-Tokens erfasst werden. ODIN erreicht den aktuellen Stand der Technik in den Benchmarks zur Segmentierung von 3D-Instanzen wie ScanNet200, Matterport3D und AI2THOR sowie vergleichbare Leistungen auf ScanNet, S3DIS und COCO. Es übertreffen alle bisherigen Arbeiten deutlich, wenn die erfasste 3D-Punktwolke anstelle der aus einem 3D-Gitter abgetasteten Punktwolke verwendet wird. Wenn es als Wahrnehmungsmodul in einer instruierbaren verkörperten Agentenarchitektur eingesetzt wird, legt es einen neuen Stand der Technik im Benchmark TEACh (action-from-dialogue) fest. Unser Code und unsere Checkpoints können auf der Projektwebsite (https://odin-seg.github.io) gefunden werden.