HyperAI
vor einem Tag

FreeLong++: Trainingsfreie Generierung langer Videos durch Multiband-Spektralfusion

Yu Lu, Yi Yang
FreeLong++: Trainingsfreie Generierung langer Videos durch Multiband-Spektralfusion
Abstract

Neuere Fortschritte bei Videoerzeugungsmodellen ermöglichen es, hochwertige kurze Videos aus Textanweisungen zu generieren. Die Erweiterung dieser Modelle auf längere Videos stellt jedoch weiterhin eine erhebliche Herausforderung dar, hauptsächlich aufgrund von verschlechterter zeitlicher Konsistenz und visueller Treue. Unsere vorläufigen Beobachtungen zeigen, dass die naive Anwendung von Kurzvideoerzeugungsmodellen auf längere Sequenzen zu bemerkenswerter Qualitätsverschlechterung führt. Eine weitere Analyse ergab einen systematischen Trend, bei dem Hochfrequenzkomponenten sich zunehmend verzerren, je länger das Video wird. Dieses Problem bezeichnen wir als Hochfrequenzverzerrung (high-frequency distortion).Um dieses Problem anzugehen, schlagen wir FreeLong vor, ein trainingsfreies Framework, das während des Entrauschungsprozesses die Frequenzverteilung der langen Videofeatures ausbalanciert. FreeLong erreicht dies durch die Kombination globaler Niederfrequenzfeatures, die holistische Semantik über das gesamte Video erfassen, mit lokalen Hochfrequenzfeatures, die aus kurzen zeitlichen Fenstern extrahiert werden, um feine Details zu bewahren. Aufbauend darauf erweitert FreeLong++ das Dual-Branch-Design von FreeLong zu einer Mehrfach-Branch-Architektur mit mehreren Aufmerksamkeitsbranches, wobei jeder Branch auf einer unterschiedlichen zeitlichen Skala operiert.Durch die Anordnung verschiedener Fenstergrößen von global bis lokal ermöglicht FreeLong++ eine Multiband-Frequenzfusion von Nieder- bis Hochfrequenzen und gewährleistet sowohl semantische Kontinuität als auch detaillierte Bewegungsdynamik in längeren Videosequenzen. Ohne zusätzliche Trainingsschritte kann FreeLong++ in bestehende Videoerzeugungsmodelle (z.B. Wan2.1 und LTX-Video) integriert werden, um längere Videos mit erheblich verbesserten zeitlichen Konsistenzen und visueller Treue zu produzieren. Wir zeigen, dass unser Ansatz bei der Generierung längerer Videos (z.B. 4-fach und 8-fach der ursprünglichen Länge) frühere Methoden übertrifft. Er unterstützt zudem kohärente Multi-Prompt-Videogenerierung mit glatten Szenenübergängen und ermöglicht steuerbare Videogenerierung mittels langer Tiefen- oder Pose-Sequenzen.关键词翻译:- 视频生成模型: Videoerzeugungsmodelle- 文本提示: Textanweisungen- 时间一致性: zeitliche Konsistenz- 视觉保真度: visuelle Treue- 高频成分: Hochfrequenzkomponenten- 高频失真: Hochfrequenzverzerrung (high-frequency distortion)- 训练免费框架: trainingsfreies Framework- 全局低频特征: globale Niederfrequenzfeatures- 局部高频特征: lokale Hochfrequenzfeatures- 双分支设计: Dual-Branch-Design- 多分支架构: Mehrfach-Branch-Architektur- 注意力分支: Aufmerksamkeitsbranches- 时间尺度: zeitliche Skala- 多带频率融合: Multiband-Frequenzfusion- 场景转换: Szenenübergänge- 深度序列: Tiefensequenzen- 姿态序列: Pose-Sequenzen