HyperAIHyperAI
vor 2 Monaten

Unüberwachtes Bildrepräsentationslernen mit tiefen latenten Partikeln

Tal Daniel; Aviv Tamar
Unüberwachtes Bildrepräsentationslernen mit tiefen latenten Partikeln
Abstract

Wir schlagen eine neue Darstellung von visuellen Daten vor, die die Position von Objekten von ihrem Erscheinungsbild trennt. Unsere Methode, als Deep Latent Particles (DLP) bezeichnet, zerlegt die visuelle Eingabe in niedrigdimensionale latente „Partikel“, wobei jeder Partikel durch seine räumliche Position und Merkmale seines umliegenden Bereichs beschrieben wird. Um das Lernen solcher Darstellungen zu fördern, folgen wir einem VAE-basierten Ansatz und führen eine A-priori-Verteilung für Partikelpositionen ein, die auf einer spatial-softmax-Architektur basiert, sowie eine Modifikation der Evidence Lower Bound-Loss-Funktion, inspiriert durch den Chamfer-Abstand zwischen den Partikeln. Wir zeigen, dass unsere DLP-Darstellungen für nachgelagerte Aufgaben wie unüberwachte Keypoint-(KP)-Erkennung, Bildmanipulation und Videovorhersage für Szenen mit mehreren dynamischen Objekten nützlich sind. Zudem demonstrieren wir, dass unsere wahrscheinlichkeitstheoretische Interpretation des Problems natürliche Unsicherheitsschätzungen für die Partikelpositionen liefert, die unter anderem für die Modellauswahl verwendet werden können. Videos und Code sind verfügbar: https://taldatech.github.io/deep-latent-particles-web/