HyperAIHyperAI
vor 11 Tagen

Zur nichtlinearen Entkoppelung natürlicher Daten mit zeitlicher sparser Kodierung

David Klindt, Lukas Schott, Yash Sharma, Ivan Ustyuzhaninov, Wieland Brendel, Matthias Bethge, Dylan Paiton
Zur nichtlinearen Entkoppelung natürlicher Daten mit zeitlicher sparser Kodierung
Abstract

Wir stellen ein modellunabhängiges Lernverfahren vor, das eine nichtlineare Entkoppelung der zugrundeliegenden Variationsfaktoren in natürlichen Videos erreicht. Frühere Arbeiten legen nahe, dass Darstellungen entkoppelt werden können, wenn zu jedem Zeitpunkt nur wenige Faktoren im Umfeld variieren und die übrigen konstant bleiben. Als Folge wurden Algorithmen für dieses Problem bisher ausschließlich auf sorgfältig konstruierten Datensätzen getestet, die diese spezifische Eigenschaft aufweisen, wodurch unklar bleibt, ob sie auf natürliche Szenen übertragbar sind. Hier liefern wir Belege dafür, dass Objekte in segmentierten natürlichen Filmen typischerweise Übergänge durchlaufen, die geringfügig sind, jedoch gelegentlich große Sprünge aufweisen – ein Merkmal einer zeitlich spärlichen Verteilung. Wir nutzen diese Erkenntnis und stellen SlowVAE vor, ein Modell für modellunabhängiges Darstellungslernen, das einen spärlichen Prior auf zeitlich benachbarte Beobachtungen nutzt, um generative Faktoren zu entkoppeln, ohne Annahmen über die Anzahl der sich ändernden Faktoren zu treffen. Wir beweisen die Identifizierbarkeit des Modells und zeigen, dass es zuverlässig entkoppelte Darstellungen auf mehreren etablierten Benchmark-Datensätzen lernt, wobei es oft die derzeitige State-of-the-Art übertreffen kann. Zudem demonstrieren wir die Übertragbarkeit auf Video-Datensätze mit natürlichen Dynamiken, darunter Natural Sprites und KITTI Masks, die wir als Benchmarks beisteuern, um die Forschung zur Entkoppelung hin zu natürlicheren Datenszenarien zu leiten.

Zur nichtlinearen Entkoppelung natürlicher Daten mit zeitlicher sparser Kodierung | Neueste Forschungsarbeiten | HyperAI