HyperAIHyperAI

Command Palette

Search for a command to run...

Entkoppelung mehrerer Merkmale in Videosequenzen mittels Gaussischer Prozesse in variationalen Autoencodern

Sarthak Bhagat Shagun Uppal Zhuyun Yin Nengli Lim

Zusammenfassung

Wir stellen MGP-VAE (Multi-disentangled-features Gaussian Processes Variational Autoencoder) vor, einen variationalen Autoencoder, der Gaußsche Prozesse (GP) zur Modellierung des latenzraums nutzt, um unüberwachtes Lernen disentanglierter Darstellungen in Videosequenzen zu ermöglichen. Wir verbessern gegenüber vorhergehenden Arbeiten, indem wir einen Rahmenwerk bereitstellen, durch den mehrere Merkmale – sowohl statische als auch dynamische – disentangliert werden können. Insbesondere verwenden wir fraktionale Brownsche Bewegungen (fBM) und Brownsche Brücken (BB), um eine Inter-Frame-Korrelationsstruktur in jedem unabhängigen Kanal zu erzwingen, und zeigen, dass die Variation dieser Struktur es ermöglicht, verschiedene Variationsfaktoren in den Daten zu erfassen. Wir demonstrieren die Qualität unserer Darstellungen anhand von Experimenten auf drei öffentlich verfügbaren Datensätzen und quantifizieren die Verbesserung zudem anhand einer Videovorhersageaufgabe. Darüber hinaus führen wir eine neuartige Geodätenverlustfunktion ein, die die Krümmung der Datensmannigfaltigkeit berücksichtigt, um das Lernen zu verbessern. Unsere Experimente zeigen, dass die Kombination der verbesserten Darstellungen mit der neuartigen Verlustfunktion es MGP-VAE ermöglicht, die Baseline-Methoden in der Videovorhersage zu übertreffen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp