Lernen von zeitlicher Kohärenz durch Selbstüberwachung für GAN-basierte Videogenerierung

Unsere Arbeit untersucht die zeitliche Selbstüberwachung für GAN-basierte Videogenerierungsaufgaben. Obwohl die adversäreische Trainierung erfolgreich generative Modelle für eine Vielzahl von Bereichen hervorbringt, werden zeitliche Beziehungen in den generierten Daten viel weniger erforscht. Natürliche zeitliche Veränderungen sind für sequenzielle Generierungsaufgaben wie Video-Super-Resolution und unpaarte Videotranslation entscheidend. Bei der Video-Super-Resolution neigen state-of-the-art Methoden häufig zu einfacheren Normverlusten wie $L^2$ gegenüber der adversärenischen Trainierung. Ihre durchschnittsbildende Natur führt jedoch leicht zu zeitlich glatten Ergebnissen mit einem unerwünschten Mangel an räumlichen Details. Für unpaarte Videotranslation modifizieren bestehende Ansätze die Generator-Netzwerke, um räumlich-zeitliche Zyklus-Konsistenzen zu bilden. Im Gegensatz dazu konzentrieren wir uns auf das Verbessern der Lernziele und schlagen einen zeitlich selbstüberwachten Algorithmus vor. Für beide Aufgaben zeigen wir, dass das zeitliche adversäreische Lernen entscheidend ist, um zeitlich kohärente Lösungen zu erreichen, ohne dabei räumliche Details zu opfern. Wir schlagen zudem einen neuen Ping-Pong-Verlust (Ping-Pong loss) vor, um die langfristige zeitliche Konsistenz zu verbessern. Er verhindert effektiv, dass rekurrente Netzwerke temporale Artefakte akkumulieren, ohne detaillierte Merkmale zu unterdrücken. Zudem stellen wir ein erstes Satz von Metriken vor, um die Genauigkeit sowie die wahrnehmungsbezogene Qualität der zeitlichen Entwicklung quantitativ zu bewerten. Eine Reihe von Benutzerstudien bestätigt die mit diesen Metriken berechneten Rangfolgen. Der Quellcode, Daten, Modelle und Ergebnisse sind unter https://github.com/thunil/TecoGAN zur Verfügung gestellt. Die Projektseite https://ge.in.tum.de/publications/2019-tecogan-chu/ enthält zusätzliche Materialien.