Command Palette
Search for a command to run...
Concerto: Gemeinsame 2D-3D selbstüberwachtes Lernen ergibt räumliche Darstellungen
Yujia Zhang Xiaoyang Wu Yixing Lao Chengyao Wang Zhuotao Tian Naiyan Wang Hengshuang Zhao

Abstract
Menschen lernen abstrakte Konzepte durch multisensorische Synergie, und sobald solche Repräsentationen gebildet sind, können sie oft bereits aus einer einzigen Modalität abgerufen werden. Inspiriert durch dieses Prinzip stellen wir Concerto vor, eine minimalistische Simulation des menschlichen Konzeptlernens für räumliche Wahrnehmung, die 3D-intra-modale Selbst-Distillation mit 2D-3D-cross-modalen gemeinsamen Einbettungen kombiniert. Trotz seiner Einfachheit lernt Concerto kohärentere und informativere räumliche Merkmale, wie Null-Schritt-Visualisierungen belegen. Es übertrifft sowohl unabhängige SOTA-Modelle für 2D- als auch 3D-Verfahren bei der linearen Abfragung für die 3D-Szenenwahrnehmung um 14,2 % bzw. 4,8 % sowie deren Merkmalskombination. Bei vollständiger Feinabstimmung erreicht Concerto neue SOTA-Ergebnisse auf mehreren Benchmarks für Szenenverstehen (z. B. 80,7 % mIoU auf ScanNet). Zudem präsentieren wir eine Variante von Concerto, die speziell für die räumliche Wahrnehmung von video-erhöhten Punktewolken optimiert ist, sowie einen Übersetzer, der Concerto-Repräsentationen linear in den Sprachraum von CLIP projiziert, wodurch eine offene Weltwahrnehmung ermöglicht wird. Diese Ergebnisse zeigen, dass Concerto räumliche Repräsentationen hervorbringt, die sich durch eine überlegene feinabgestimmte geometrische und semantische Konsistenz auszeichnen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.