Flots discrets : Modèles génératifs inversibles de données discrètes

Bien que les flux normalisants aient permis des avancées significatives dans la modélisation de distributions continues à haute dimension, leur applicabilité aux distributions discrètes reste incertaine. Dans cet article, nous démontrons qu'il est en effet possible d'étendre les flux aux événements discrets, et ce grâce à une formule simple de changement de variables qui n'exige pas le calcul du logarithme du jacobien déterminant. Les flux discrets ont de nombreuses applications. Nous examinons deux architectures de flux : les flux autoregressifs discrets qui permettent la bidirectionnalité, autorisant par exemple les jetons dans un texte à dépendre à la fois des contextes gauche-droite et droit-gauche dans un modèle linguistique exact ; et les flux bipartites discrets qui permettent une génération non autoregressive efficace comme dans RealNVP. Sur le plan empirique, nous constatons que les flux autoregressifs discrets surpassent les modèles de base autoregressifs sur des distributions synthétiques discrètes, une tâche d'addition et des modèles de Potts ; et que les flux bipartites peuvent obtenir des performances compétitives comparables à celles des modèles de base autoregressifs pour la modélisation linguistique au niveau des caractères sur Penn Tree Bank et text8.