AdaCrossNet: Adaptive Dynamic Loss Weighting for Cross-Modal Contrastive Point Cloud Learning
{Mauridhi Hery Purnomo Eko Mulyanto Yuniarno Kohichi Ogata Oddy Virgantara Putra}

Abstract
Die manuelle Annotation großer Punktwolken-Datensätze ist aufgrund ihrer irregulären Struktur zeitaufwendig. Obwohl cross-modale kontrastive Lernmethoden wie CrossPoint und CrossNet Fortschritte bei der Nutzung multimodaler Daten für selbstüberwachtes Lernen erzielt haben, leiden sie weiterhin unter Instabilitäten während des Trainings, verursacht durch statische Gewichtungen der intra-modalen (IM) und cross-modalen (CM) Verluste. Diese statischen Gewichte berücksichtigen nicht die unterschiedlichen Konvergenzraten verschiedener Modi. Wir stellen AdaCrossNet vor, einen neuartigen Ansatz für selbstüberwachtes Lernen im Bereich der Punktwolkenverarbeitung, der eine dynamische Gewichtsanpassung für IM- und CM-kontrastives Lernen nutzt. AdaCrossNet lernt Darstellungen, indem es gleichzeitig die Ausrichtung zwischen 3D-Punktwolken und ihren zugehörigen 2D-Renderings innerhalb eines gemeinsamen latenten Raums verbessert. Unser dynamisches Gewichtsanpassungsmechanismus balanciert adaptiv die Beiträge der IM- und CM-Verluste während des Trainings, gesteuert durch das Konvergenzverhalten jedes Modus. Um die Stabilität des Trainingsprozesses zu gewährleisten, verwenden wir einen exponentiell gewichteten gleitenden Durchschnitt (EWMA), um die Gewichtsaktualisierungen zu glätten. Wir haben unsere Methode an Standard-Datensätzen wie ModelNet40, ShapeNetPart und ScanObjectNN evaluiert. Die Ergebnisse zeigen, dass AdaCrossNet gegenüber anderen Ansätzen überlegen ist: Bei der Klassifizierungsaufgabe auf ModelNet40 erreicht es eine Genauigkeit von 91,4 %. Bei der Segmentierungsaufgabe erzielt AdaCrossNet auf ShapeNetPart einen mIoU-Wert von 85,1 %. Zudem zeigt AdaCrossNet, kombiniert mit dem DGCNN-Backbone, signifikante Verbesserungen auf dem ScanObjectNN-Datensatz mit einer Genauigkeit von 82,1 %. Unser Ansatz steigert die Trainingseffizienz und erhöht die Verallgemeinerungsfähigkeit der gelernten Darstellungen für nachgeschaltete Aufgaben.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| 3d-part-segmentation-on-shapenet-part | AdaCrossNet | Class Average IoU: 85.1 |
| 3d-point-cloud-classification-on-modelnet40 | AdaCrossNet | Overall Accuracy: 93.1 |
| 3d-point-cloud-linear-classification-on | AdaCrossNet | Overall Accuracy: 91.4 |
| 3d-point-cloud-linear-classification-on-1 | AdaCrossNet | Overall Accuracy: 82.1 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.