Niedrigdimensionale Kerne für Video-Diskriminatoren

Diese Arbeit präsentiert eine Analyse der Diskriminatoren, die in Generativen adversarialen Netzwerken (GANs) für Videodaten eingesetzt werden. Wir zeigen, dass unbeschränkte Architekturen von Videodiskriminatoren eine Verlustfläche mit hoher Krümmung erzeugen, was die Optimierung erschwert. Zudem belegen wir, dass diese Krümmung umso extremer wird, je größer die maximale Kerneldimension der Videodiskriminatoren ist. Aufgrund dieser Beobachtungen schlagen wir eine Familie effizienter niederdimensionaler Videodiskriminatoren für GANs (LDVD GANs) vor. Die vorgeschlagene Familie von Diskriminatoren verbessert die Leistung von Videogan-Modellen, auf die sie angewendet werden, und erzielt herausragende Ergebnisse auf komplexen und vielfältigen Datensätzen wie UCF-101. Insbesondere zeigen wir, dass sie die Leistung von Temporal-GANs verdoppeln können und eine state-of-the-art-Performance auf einer einzigen GPU erreichen.