HyperAIHyperAI
vor 7 Tagen

Lokal maskierte Faltung für autoregressive Modelle

Ajay Jain, Pieter Abbeel, Deepak Pathak
Lokal maskierte Faltung für autoregressive Modelle
Abstract

Hochdimensionale generative Modelle haben zahlreiche Anwendungen, darunter Bildkompression, Multimediagenerierung, Anomalieerkennung und Datenrekonstruktion. Stand der Technik bei der Schätzung natürlicher Bilder sind autoregressive Modelle, die die gemeinsame Verteilung über Pixel in ein Produkt bedingter Verteilungen zerlegen, die durch ein tiefes neuronales Netzwerk parametrisiert werden, beispielsweise durch ein faltendes neuronales Netzwerk wie das PixelCNN. Allerdings modellieren PixelCNNs lediglich eine einzige Zerlegung der gemeinsamen Verteilung, und nur eine einzige Generierungsreihenfolge ist effizient. Für Aufgaben wie die Bildrekonstruktion können diese Modelle nur einen geringen Teil des beobachteten Kontexts nutzen. Um Daten in beliebiger Reihenfolge generieren zu können, führen wir LMConv ein: eine einfache Erweiterung der herkömmlichen 2D-Faltung, die es ermöglicht, an jeder Position im Bild beliebige Masken auf die Gewichte anzuwenden. Mit LMConv lernen wir eine Ensemble-Gruppe von Verteilungsschätzern, die Parameter teilen, sich aber in der Generierungsreihenfolge unterscheiden. Dies führt zu einer verbesserten Leistung bei der Dichteschätzung über das gesamte Bild (2,89 bit pro Pixel auf unbedingtem CIFAR10) sowie zu global kohärenten Bildrekonstruktionen. Unser Code ist unter https://ajayjain.github.io/lmconv verfügbar.

Lokal maskierte Faltung für autoregressive Modelle | Neueste Forschungsarbeiten | HyperAI