Command Palette
Search for a command to run...
FARMER: Fluss-automatische rekursive Transformatoren über Pixel
Guangting Zheng Qinyu Zhao Tao Yang Fei Xiao Zhijie Lin Jie Wu Jiajun Deng Yanyong Zhang Rui Zhu

Abstract
Die direkte Modellierung der expliziten Likelihood der Rohdatenverteilung ist ein zentrales Thema im Bereich des maschinellen Lernens und hat durch autoregressive Modellierung die Skalierbarkeitserfolge in großen Sprachmodellen ermöglicht. Allerdings leidet die kontinuierliche autoregressive Modellierung visueller Pixeldaten unter extrem langen Sequenzen und hochdimensionalen Räumen. In diesem Paper stellen wir FARMER vor, einen neuartigen end-to-end generativen Rahmen, der Normalizing Flows (NF) und autoregressive (AR) Modelle vereint, um eine handhabbare Likelihood-Schätzung und qualitativ hochwertige Bildsynthese direkt aus Rohpixeln zu ermöglichen. FARMER nutzt eine invertierbare autoregressive Flow-Transformation, um Bilder in latente Sequenzen zu überführen, deren Verteilung implizit durch ein autoregressives Modell modelliert wird. Um die Redundanz und Komplexität bei der Modellierung auf Pixel-Ebene zu verringern, schlagen wir ein selbstüberwachtes Dimensionsreduktionsverfahren vor, das die latente Kanäle der NF in informative und redundante Gruppen aufteilt, wodurch eine effizientere und effektivere AR-Modellierung ermöglicht wird. Zudem entwerfen wir ein einstufiges Distanzierungsschema, um die Inferenzgeschwindigkeit erheblich zu beschleunigen, und ein auf Resampling basierendes, klassifizierungsloses Leitungsverfahren, um die Qualität der Bildgenerierung zu steigern. Ausführliche Experimente zeigen, dass FARMER im Vergleich zu bestehenden pixelbasierten generativen Modellen wettbewerbsfähige Leistung erzielt, wobei exakte Likelihoods bereitgestellt und eine skalierbare Trainingsprozedur gewährleistet ist.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.