DDMI: Domänenunabhängige latente Diffusionsmodelle zur Synthese hochwertiger impliziter neuronaler Repräsentationen

Neuere Studien haben eine neue Klasse von Generativen Modellen für die Synthese impliziter neuronaler Repräsentationen (INRs) eingeführt, die willkürliche kontinuierliche Signale in verschiedenen Bereichen erfassen. Diese Modelle ermöglichten es, domänenunabhängige Generative Modelle zu entwickeln, scheiterten aber oft daran, hochwertige Generationen zu erzeugen. Wir beobachteten, dass bestehende Methoden die Gewichte neuronaler Netze generieren, um INRs zu parametrisieren und das Netzwerk mit festen positionellen Einbettungen (PEs) auszuwerten. Es kann argumentiert werden, dass diese Architektur die Ausdrucksstärke der Generativen Modelle einschränkt und zu einer niedrigen Qualität der INR-Generation führt. Um diese Einschränkung zu überwinden, schlagen wir ein domänenunabhängiges latentes Diffusionsmodell für INRs (DDMI) vor, das anpassbare positionelle Einbettungen anstelle der Gewichte neuronaler Netze generiert. Insbesondere entwickeln wir einen Diskret-zu-kontinuierlicher Raum-Variational Autoencoder (D2C-VAE), der diskrete Daten und kontinuierliche Signal-Funktionen im gemeinsamen latenten Raum nahtlos verbindet. Zudem führen wir einen neuen Konditionsmechanismus ein, um INRs mit hierarchisch dekomponierten PEs auszuwerten und so die Ausdrucksstärke weiter zu verbessern. Ausführliche Experimente in vier Modalitäten – 2D-Bilder, 3D-Formen, Neuronale Strahlungsfelder und Videos – mit sieben Benchmark-Datensätzen zeigen die Vielseitigkeit des DDMI sowie seine überlegene Leistung im Vergleich zu den bestehenden INR-Generativen Modellen.