HyperAIHyperAI
vor 8 Tagen

OmniTokenizer: Ein gemeinsamer Bild-Videotokenizer für visuelle Generierung

Junke Wang, Yi Jiang, Zehuan Yuan, Binyue Peng, Zuxuan Wu, Yu-Gang Jiang
OmniTokenizer: Ein gemeinsamer Bild-Videotokenizer für visuelle Generierung
Abstract

Der Tokenizer, der als Übersetzer fungiert, um die komplexen visuellen Daten in einen kompakten latente Raum abzubilden, bildet das Herzstück visueller Generativmodelle. Ausgehend von der Erkenntnis, dass bestehende Tokenizer speziell auf Bilddaten oder Videodaten zugeschnitten sind, präsentiert dieser Artikel OmniTokenizer, einen auf Transformers basierenden Tokenizer für die gemeinsame Tokenisierung von Bildern und Videos. OmniTokenizer ist mit einer räumlich-zeitlich entkoppelten Architektur konzipiert, die Fenster- und kausale Aufmerksamkeit zur räumlichen und zeitlichen Modellierung integriert. Um die ergänzende Natur von Bilddaten und Videodaten optimal auszunutzen, schlagen wir zudem eine fortschreitende Trainingsstrategie vor, bei der OmniTokenizer zunächst auf Bilddaten mit fester Auflösung trainiert wird, um die Fähigkeit zur räumlichen Kodierung zu entwickeln, und anschließend gemeinsam auf Bilddaten und Videodaten bei mehreren Auflösungen trainiert wird, um zeitliche Dynamiken zu erlernen. OmniTokenizer ist erstmals in der Lage, sowohl Bild- als auch Videodaten innerhalb eines einheitlichen Rahmens zu verarbeiten und beweist die Machbarkeit einer Synergie zwischen beiden Datentypen. Umfangreiche Experimente zeigen, dass OmniTokenizer state-of-the-art (SOTA)-Rekonstruktionsleistung auf verschiedenen Bilddaten- und Videodatensätzen erzielt, beispielsweise eine Rekonstruktions-FID von 1,11 auf ImageNet und eine Rekonstruktions-FVD von 42 auf UCF-101, wobei die bisherigen SOTA-Methoden um 13 % bzw. 26 % übertroffen werden. Zudem zeigen wir, dass sowohl anspruchsvolle visuelle Syntheseleistung mit Sprachmodellen als auch mit Diffusionsmodellen erreicht werden kann, wenn diese mit OmniTokenizer integriert werden, was die Überlegenheit und Vielseitigkeit unseres Ansatzes unterstreicht. Der Quellcode ist unter https://github.com/FoundationVision/OmniTokenizer verfügbar.

OmniTokenizer: Ein gemeinsamer Bild-Videotokenizer für visuelle Generierung | Neueste Forschungsarbeiten | HyperAI