HyperAIHyperAI
vor 9 Tagen

Gierige hierarchische Variational Autoencoder für die großskalige Videovorhersage

Bohan Wu, Suraj Nair, Roberto Martin-Martin, Li Fei-Fei, Chelsea Finn
Gierige hierarchische Variational Autoencoder für die großskalige Videovorhersage
Abstract

Ein Videovorhersagemodell, das auf vielfältige Szenen generalisiert, würde intelligenten Agenten wie Robotern ermöglichen, eine Vielzahl von Aufgaben durch Planung mit dem Modell zu bewältigen. Allerdings leiden bestehende Videovorhersagemodelle, obwohl sie auf kleinen Datensätzen vielversprechende Ergebnisse erzielen, bei der Trainierung auf großen und vielfältigen Datensätzen unter schwerwiegender Unteranpassung (underfitting). Um dieses Unteranpassungsproblem anzugehen, beobachten wir zunächst, dass die Fähigkeit, größere Videovorhersagemodelle zu trainieren, oft durch die Speicherbeschränkungen von GPUs oder TPUs eingeschränkt wird. Parallel dazu können tief hierarchische latente Variablenmodelle durch die Erfassung der mehrstufigen Stochastik zukünftiger Beobachtungen präzisere Vorhersagen erzeugen, doch die end-to-end-Optimierung solcher Modelle ist bemerkenswert schwierig. Unser zentrales Insight ist, dass eine gierige und modulare Optimierung hierarchischer Autoencoder gleichzeitig die Speicherbeschränkungen und die Optimierungsprobleme bei der Skalierung von Videovorhersagemodellen adressieren kann. Wir führen Greedy Hierarchical Variational Autoencoders (GHVAEs) ein, eine Methode, die hochgenaue Videovorhersagen durch gieriges Training jeder Ebene eines hierarchischen Autoencoders erlernt. Im Vergleich zu state-of-the-art-Modellen erreichen GHVAEs auf vier Video-Datensätzen Verbesserungen der Vorhersageleistung um 17–55 %, bei realen Roboteraufgaben eine um 35–40 % höhere Erfolgsrate und können die Leistung monoton steigern, indem einfach weitere Module hinzugefügt werden.

Gierige hierarchische Variational Autoencoder für die großskalige Videovorhersage | Neueste Forschungsarbeiten | HyperAI