Réseaux de flux bayésiens

Cet article présente les Bayesian Flow Networks (BFNs), une nouvelle classe de modèles génératifs dans laquelle les paramètres d’un ensemble de distributions indépendantes sont ajustés par inférence bayésienne à la lumière d’échantillons de données bruités, puis transmis en entrée d’un réseau de neurones qui produit une deuxième distribution dépendante. En partant d’un a priori simple et en mettant à jour itérativement les deux distributions, on obtient une procédure générative analogue au processus inverse des modèles de diffusion ; toutefois, elle est conceptuellement plus simple, car elle ne nécessite pas de processus direct. Des fonctions de perte en temps continu, discret et discret sont dérivées pour des données continues, discrétisées et discrètes, accompagnées de procédures de génération d’échantillons. Notamment, les entrées du réseau pour les données discrètes se situent sur le simplexe de probabilité, ce qui les rend naturellement différentiables, ouvrant la voie à une guidance par gradient et à une génération en peu d’étapes dans des domaines discrets tels que le modélisation du langage. La fonction de perte optimise directement la compression des données et ne impose aucune contrainte sur l’architecture du réseau. Dans nos expériences, les BFNs atteignent des log-vraisemblances compétitives pour la modélisation d’images sur MNIST binarisé dynamiquement et CIFAR-10, et surpassent tous les modèles de diffusion discrets connus sur la tâche de modélisation du langage au niveau des caractères sur text8.