HyperAIHyperAI
il y a un mois

Flots résiduels pour la modélisation générative inversible

Ricky T. Q. Chen; Jens Behrmann; David Duvenaud; Jörn-Henrik Jacobsen
Flots résiduels pour la modélisation générative inversible
Résumé

Les modèles génératifs basés sur les flux paramètrent des distributions de probabilité à travers une transformation inversible et peuvent être entraînés par vraisemblance maximale. Les réseaux résiduels inversibles fournissent une famille flexible de transformations où seules des conditions de Lipschitz, plutôt que des contraintes architecturales strictes, sont nécessaires pour garantir l'inversibilité. Cependant, les travaux antérieurs ont formé des réseaux résiduels inversibles pour l'estimation de densité en s'appuyant sur des estimations biaisées du logarithme de la densité, dont le biais augmentait avec l'expressivité du réseau. Nous proposons une estimation non biaisée et réalisable du logarithme de la densité en utilisant un estimateur « roulette russe » et réduisons la mémoire requise pendant l'entraînement en utilisant une série infinie alternative pour le gradient. De plus, nous améliorons les blocs résiduels inversibles en suggérant l'utilisation de fonctions d'activation qui évitent la saturation des dérivées et en généralisant la condition de Lipschitz aux normes mixtes induites. L'approche résultante, appelée Residual Flows (Flux Résiduels), atteint des performances sans égales dans l'estimation de densité parmi les modèles basés sur les flux et surpassent les réseaux qui utilisent des blocs couplés pour le modèle génératif et discriminatif conjoint.

Flots résiduels pour la modélisation générative inversible | Articles de recherche récents | HyperAI