HyperAIHyperAI
vor 7 Tagen

Entkoppelung mehrerer Merkmale in Videosequenzen mittels Gaussischer Prozesse in variationalen Autoencodern

Sarthak Bhagat, Shagun Uppal, Zhuyun Yin, Nengli Lim
Entkoppelung mehrerer Merkmale in Videosequenzen mittels Gaussischer Prozesse in variationalen Autoencodern
Abstract

Wir stellen MGP-VAE (Multi-disentangled-features Gaussian Processes Variational Autoencoder) vor, einen variationalen Autoencoder, der Gaußsche Prozesse (GP) zur Modellierung des latenzraums nutzt, um unüberwachtes Lernen disentanglierter Darstellungen in Videosequenzen zu ermöglichen. Wir verbessern gegenüber vorhergehenden Arbeiten, indem wir einen Rahmenwerk bereitstellen, durch den mehrere Merkmale – sowohl statische als auch dynamische – disentangliert werden können. Insbesondere verwenden wir fraktionale Brownsche Bewegungen (fBM) und Brownsche Brücken (BB), um eine Inter-Frame-Korrelationsstruktur in jedem unabhängigen Kanal zu erzwingen, und zeigen, dass die Variation dieser Struktur es ermöglicht, verschiedene Variationsfaktoren in den Daten zu erfassen. Wir demonstrieren die Qualität unserer Darstellungen anhand von Experimenten auf drei öffentlich verfügbaren Datensätzen und quantifizieren die Verbesserung zudem anhand einer Videovorhersageaufgabe. Darüber hinaus führen wir eine neuartige Geodätenverlustfunktion ein, die die Krümmung der Datensmannigfaltigkeit berücksichtigt, um das Lernen zu verbessern. Unsere Experimente zeigen, dass die Kombination der verbesserten Darstellungen mit der neuartigen Verlustfunktion es MGP-VAE ermöglicht, die Baseline-Methoden in der Videovorhersage zu übertreffen.

Entkoppelung mehrerer Merkmale in Videosequenzen mittels Gaussischer Prozesse in variationalen Autoencodern | Neueste Forschungsarbeiten | HyperAI