Skalierbare adaptive Berechnung für iterative Generierung

Natürliche Daten sind redundant, doch dominierende Architekturen verteilen die Berechnung gleichmäßig über ihren Eingabe- und Ausgaberaum. Wir schlagen Rekurrente Schnittstellen-Netzwerke (Recurrent Interface Networks, RINs) vor, eine auf Aufmerksamkeit basierende Architektur, die ihre Kernberechnung von der Dimensionalität der Daten entkoppelt und somit eine adaptive Berechnung für eine skalierbarere Generierung hochdimensionaler Daten ermöglicht. RINs konzentrieren den Großteil der Berechnung (nämlich globale Selbst-Aufmerksamkeit) auf eine Menge latenter Tokens und nutzen Kreuz-Aufmerksamkeit, um Informationen zwischen latenten und Daten-Tokens zu lesen und zu schreiben (d. h. zu routen). Durch Stapeln von RIN-Blöcken entstehen sowohl bottom-up- (Daten zu latent) als auch top-down- (latent zu Daten) Rückkopplungen, was zu tieferen und expressiveren Routings führt. Obwohl dieses Routing Herausforderungen mit sich bringt, ist dies in rekurrenten Berechnungsumgebungen weniger problematisch, da sich die Aufgabe (und das Routing-Problem) dort schrittweise verändert, beispielsweise bei iterativer Generierung mit Diffusionsmodellen. Wir zeigen, wie Rekurrenz genutzt werden kann, indem die latenten Tokens bei jedem Vorwärtsdurchlauf des umgekehrten Diffusionsprozesses mit jenen aus vorhergehenden Berechnungen konditioniert werden, also durch latente Selbst-Konditionierung. RINs erzielen State-of-the-Art-Ergebnisse bei Pixel-Diffusionsmodellen für die Bild- und Videogenerierung, skaliert auf 1024×1024-Bilder ohne Kaskaden oder Leitfunktionen, sind dabei jedoch domainspezifisch agnostisch und bis zu zehnmal effizienter als 2D- und 3D-U-Nets.