AdaCache Beschleunigt Die Videogenerierung
AdaCache ist eine von Meta im Jahr 2024 vorgeschlagene Technologie zur Beschleunigung der KI-Videogenerierung. Sein Kern ist der adaptive Cache-Mechanismus. Die entsprechenden Ergebnisse der Studie sind „Adaptives Caching für schnellere Videogenerierung mit Diffusion Transformers". Es optimiert die Zuweisung von Rechenressourcen, passt den Rechenaufwand dynamisch an die Komplexität unterschiedlicher Videoinhalte an und reduziert unnötigen Rechenaufwand. AdaCache führt eine Strategie zur Bewegungsregulierung ein, um Caching-Entscheidungen mithilfe der Bewegungsinformationen im Video weiter zu optimieren. Experimente zeigen, dass AdaCache die Generierungsgeschwindigkeit bei gleichbleibender Videoqualität deutlich verbessert und seine Wirkung in einer Umgebung mit mehreren GPUs bemerkenswert ist. Es hat einen wichtigen Anwendungswert und Entwicklungsperspektiven im Bereich der Videogenerierung.
Insbesondere erfordert unser Ansatz, AdaCache, kein Training und kann während der Inferenz nahtlos als Plug-and-Play-Komponente in einen Basis-Videodiffusionstransformator integriert werden. Die Kernidee unseres Schemas besteht darin, die Restberechnungen (z. B. Aufmerksamkeits- oder mehrschichtige Perzeptronausgaben) in den Transformatormodulen bei einem bestimmten Diffusionsschritt zwischenzuspeichern und diese zwischengespeicherten Ergebnisse je nach generiertem Video in mehreren nachfolgenden Schritten wiederzuverwenden. Dies erreichte das Forschungsteam durch die Entwicklung eines Caching-Plans, d. h., bei jeder Durchführung einer Residuenberechnung wird entschieden, wann diese das nächste Mal neu berechnet werden soll. Diese Entscheidung wird durch eine Distanzmetrik geleitet, die die Änderungsrate zwischen der zuvor gespeicherten Darstellung und der aktuellen Darstellung misst. Wenn die Distanz groß ist, wird der Cache nicht für längere Zeit (d. h. mehrere Schritte) aufbewahrt, um die Wiederverwendung inkompatibler Darstellungen zu vermeiden.
Die Forscher führten außerdem eine Bewegungsregularisierung (MoReg) ein, um Rechenaufgaben entsprechend dem Bewegungsinhalt des generierten Videos zu verteilen. Grund hierfür ist die Beobachtung, dass hochdynamische Sequenzen mehr Diffusionsschritte erfordern, um eine angemessene Qualität zu erreichen.
Insgesamt wird diese Pipeline auf mehrere Video-Diffusionstransformator-Benchmarks angewendet und zeigt eine schnellere Inferenzgeschwindigkeit ohne Einbußen bei der Generierungsqualität.