Zu glatter Videozusammensetzung

Die Videoerstellung erfordert die Synthese konsistenter und dauerhafter Frames mit dynamischem Inhalt über die Zeit hinweg. Diese Arbeit untersucht das Modellieren von zeitlichen Beziehungen zur Erstellung von Videos beliebiger Länge, von wenigen Frames bis hin zu unendlich vielen, unter Verwendung von generativen adversären Netzen (GANs). Zunächst zeigen wir, dass der aliasfreie Vorgang für die Generierung einzelner Bilder zusammen mit ausreichend vorab gelerntem Wissen einen glatten Frameübergang ermöglicht, ohne die Qualität pro Frame zu beeinträchtigen. Zweitens gelingt es uns durch die Integration des zeitlichen Shift-Moduls (TSM), das ursprünglich für die Videobearbeitung entwickelt wurde, in den Diskriminator, den Generator bei der Synthese konsistenterer Dynamiken weiterzuentwickeln. Drittens entwickeln wir eine neuartige bewegungsorientierte Darstellung auf Basis von B-Splines, um die zeitliche Glattheit sicherzustellen und damit die Erstellung unendlich langer Videos zu ermöglichen. Diese Methode kann über die bei der Schulung verwendete Anzahl von Frames hinausgehen. Zudem wird eine temporale Modulation niedrigen Rangs vorgeschlagen, um wiederholte Inhalte bei langen Videos zu reduzieren. Wir evaluieren unseren Ansatz an verschiedenen Datensätzen und zeigen erhebliche Verbesserungen im Vergleich zu Baseline-Methoden der Videoerstellung. Der Code und die Modelle werden öffentlich verfügbar sein unter https://genforce.github.io/StyleSV.