La plupart des Modèles Linguistiques peuvent aussi être des Poètes : un Assistant d’Écriture par IA et un Studio de Génération de Texte Contraint

Malgré les progrès rapides réalisés dans le domaine de la génération contrainte de langage naturel, très peu d’efforts ont été consacrés à l’exploration du potentiel des modèles linguistiques dont le vocabulaire est restreint de manière lexicale, sémantique et/ou phonétique. Nous constatons que la plupart des modèles linguistiques parviennent à produire des textes convaincants même sous des contraintes importantes. Nous proposons une technique simple et universellement applicable pour modifier la sortie d’un modèle linguistique en appliquant de manière composée des fonctions de filtrage au vocabulaire du modèle avant la génération d’un segment de texte. Cette approche est directement utilisable (plug-and-play) et ne nécessite aucune modification du modèle lui-même. Pour illustrer la valeur de cette technique, nous présentons un assistant d’écriture intelligente facile à utiliser appelé Constrained Text Generation Studio (CTGS). CTGS permet aux utilisateurs de générer ou de choisir parmi des textes soumis à n’importe quelle combinaison de diverses contraintes, telles que l’interdiction d’un certain caractère, la contrainte imposant aux mots générés d’avoir un nombre précis de syllabes, ou encore la contrainte forçant les mots à être des anagrammes partielles d’un autre mot. Nous introduisons un nouveau jeu de données de prose dans lequel la lettre « e » est systématiquement omise. Nous montrons que notre méthode obtient des performances strictement supérieures à celles de la fine-tuning seule sur ce jeu de données. Nous présentons également une application web basée sur Hugging Face, appelée Gadsby, qui met en œuvre cette technique. Le code source est disponible publiquement à l’adresse suivante : https://github.com/Hellisotherpeople/Constrained-Text-Generation-Studio