Zur großskaligen 3D-Darstellungslernung mit Multi-Dataset-Punkt-Prompt-Training

Die rasante Entwicklung tiefgehender Lernmodelle beruht häufig auf ihrer Fähigkeit, riesige Mengen an Trainingsdaten zu nutzen. Im Gegensatz dazu hat dieser Vorteil 3D-tiefes Lernen bisher noch nicht vollständig erreicht, hauptsächlich aufgrund der begrenzten Verfügbarkeit großer 3D-Datensätze. Die Kombination mehrerer verfügbarer Datensourcen und die gemeinsame Ausbildung eines einzigen Modells könnte eine mögliche Lösung darstellen. Allerdings kann aufgrund der erheblichen Domänenlücke zwischen 3D-Punktwolken-Datensätzen eine solche gemischte Supervision die Leistung des Modells negativ beeinflussen und zu einer Verschlechterung der Ergebnisse führen (sogenannte negative Transferierung) im Vergleich zur Ausbildung an einzelnen Datensätzen. Angesichts dieser Herausforderung stellen wir Point Prompt Training (PPT) vor – einen neuartigen Rahmen für die synergistische Lernstrategie mehrerer Datensätze im Kontext der 3D-Darstellungslernung, der verschiedene Vortrainingsparadigmen unterstützt. Auf Basis dieses Rahmens schlagen wir Prompt-gesteuerte Normalisierung vor, die das Modell mittels domänenspezifischer Prompts an unterschiedliche Datensätze anpasst, sowie sprachgestützte kategorische Ausrichtung, die die mehrfachen Label-Räume durch Ausnutzung der Beziehungen zwischen Label-Texten geschickt vereinheitlicht. Umfangreiche Experimente bestätigen, dass PPT die negative Transferierung bei synergistischem Lernen überwinden und generalisierbare Darstellungen erzeugen kann. Insbesondere erreicht es auf jedem einzelnen Datensatz den Stand der Technik mit einem einzigen gewichtsgeteilten Modell unter supervisierter Ausbildung über mehrere Datensätze. Zudem erzielt es bei Verwendung als Vortrainingsrahmen eine bessere Darstellungsgüte als andere Vortrainingsansätze und erzielt bemerkenswerte Spitzenleistungen bei über zehn unterschiedlichen nachgelagerten Aufgaben, die sowohl innen- als auch außenräumliche 3D-Szenarien abdecken.