HyperAIHyperAI

Command Palette

Search for a command to run...

ODIN: Ein einziges Modell für 2D- und 3D-Segmentierung

Ayush Jain Pushkal Katara Nikolaos Gkanatsios Adam W. Harley Gabriel Sarch Kriti Aggarwal Vishrav Chaudhary Katerina Fragkiadaki

Zusammenfassung

Zustandsderkunst-Modelle auf aktuellen 3D-Segmentierungsbenchmarks wie ScanNet verarbeiten und klassifizieren 3D-Punktwolken, die durch die Nachbearbeitung von erfassten Multiview-RGB-D-Bildern erhalten werden. Sie werden in der Regel im gleichen Bereich trainiert, verzichten auf groß angelegte 2D-Vorabtrainings und übertreffen Alternativen, die die posierten RGB-D-Multiview-Bilder stattdessen featurisieren. Die Leistungsunterschiede zwischen Methoden, die posierte Bilder und nachbearbeitete 3D-Punktwolken verarbeiten, haben den Glauben gefördert, dass 2D- und 3D-Wahrnehmung unterschiedliche Modellarchitekturen erfordern. In dieser Arbeit stellen wir diese Ansicht in Frage und schlagen ODIN (Omni-Dimensional INstance Segmentation) vor, ein Modell, das sowohl 2D-RGB-Bilder als auch 3D-Punktwolken segmentieren und klassifizieren kann. Dies geschieht durch eine Transformer-Architektur, die sich abwechselnd mit der Fusion von 2D-Innenansichten-Informationen und 3D-Kreisansichten-Informationen beschäftigt. Unser Modell differenziert zwischen 2D- und 3D-Featureoperationen durch die positionellen Codierungen der beteiligten Tokens, wobei Pixelkoordinaten für 2D-Patch-Tokens und 3D-Koordinaten für 3D-Feature-Tokens erfasst werden. ODIN erreicht den aktuellen Stand der Technik in den Benchmarks zur Segmentierung von 3D-Instanzen wie ScanNet200, Matterport3D und AI2THOR sowie vergleichbare Leistungen auf ScanNet, S3DIS und COCO. Es übertreffen alle bisherigen Arbeiten deutlich, wenn die erfasste 3D-Punktwolke anstelle der aus einem 3D-Gitter abgetasteten Punktwolke verwendet wird. Wenn es als Wahrnehmungsmodul in einer instruierbaren verkörperten Agentenarchitektur eingesetzt wird, legt es einen neuen Stand der Technik im Benchmark TEACh (action-from-dialogue) fest. Unser Code und unsere Checkpoints können auf der Projektwebsite (https://odin-seg.github.io) gefunden werden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp