Mixing-Denoising verallgemeinerbare Besetzungsnetzwerke

Während aktuelle state-of-the-art-Modelle für verallgemeinerbare implizite neuronale Formen auf die induktive Voreingenommenheit von Faltungen setzen, ist noch nicht vollständig klar, wie Eigenschaften, die aus solchen Voreingenommenheiten hervorgehen, mit der Aufgabe der 3D-Rekonstruktion aus Punktwolken kompatibel sind. In diesem Kontext erforschen wir einen alternativen Ansatz zur Verallgemeinerbarkeit. Wir reduzieren die inhärente Modellvoreingenommenheit (d. h. die Verwendung von MLPs zur Kodierung lokaler Merkmale anstelle von Faltungen) und beschränken stattdessen den Hypothesenraum durch eine zusätzliche Regularisierung, die mit der Rekonstruktionsaufgabe verknüpft ist, nämlich der Rauschunterdrückung. Das resultierende Modell ist das erste ausschließlich aus MLPs bestehende, lokal bedingte implizite Formrekonstruktionsnetzwerk für Punktwolken mit schneller Vorwärtsinferenz. Punktwolken-basierte Merkmale und Rauschunterdrückungs-Offsetwerte werden in einer einzigen Vorwärtsdurchlauf durch ein ausschließlich aus MLPs bestehendes Netzwerk vorhergesagt. Ein Decoder berechnet die Besetzungs-Wahrscheinlichkeiten für Abfragen überall im Raum, indem er nahegelegene Merkmale aus der Punktwolke ordnungsunabhängig aggregiert, geleitet durch eine nachgeräumte relative Positionscodierung. Wir übertreffen die state-of-the-art-Faltungs-Methode, während wir nur die Hälfte der Anzahl an Modellparametern verwenden.