HyperAIHyperAI

Command Palette

Search for a command to run...

J'ai fait parler mon blog de 24 ans avec un modèle de Markov : voici ce qu'il a inventé

Depuis 24 ans, j’ai publié des centaines d’articles sur mon blog, couvrant des sujets variés allant de la programmation à la philosophie, en passant par les outils logiciels et les curiosités linguistiques. Hier, j’ai partagé un petit programme nommé Mark V. Shaney Junior, une implémentation minimaliste d’un générateur de texte basé sur un modèle de Markov, inspirée du célèbre Mark V. Shaney des années 1980. Ce projet, disponible sur GitHub et Codeberg, est le fruit d’un exercice de programmation exploratoire, une activité que j’apprécie pour le plaisir d’expérimenter, sans but concret. Il s’agit d’un modèle de Markov d’ordre 2 par défaut, qui analyse les paires de mots consécutifs (trigrammes) pour prédire le mot suivant, en choisissant aléatoirement parmi les options disponibles. L’algorithme est simple : il construit une table de correspondance entre des paires de mots et les mots qui les suivent, puis génère du texte en partant d’un couple aléatoire et en suivant les transitions. Après avoir testé le modèle sur A Christmas Carol de Charles Dickens — un choix naturel pour sa richesse stylistique et son style prolixe — j’ai eu l’idée de l’entraîner sur l’ensemble de mes 24 ans de publications, soit environ 200 000 mots. Les commentaires (40 000 mots) ont été exclus pour éviter les bruits parasites. Les résultats sont surprenants : des textes incohérents mais parfois amusants, mêlant des fragments de mes propres écrits de manière absurde. Par exemple, le modèle a combiné une phrase sur les fichiers sources Lisp avec une mention de l’estime de soi, deux éléments provenant de deux articles distincts, créant une phrase absurde mais logique à sa manière. En augmentant l’ordre du modèle à 4, le texte devient plus fluide, presque cohérent, avec des transitions plus naturelles. Cependant, à l’ordre 5, le modèle commence à copier verbatim des passages de mes articles, perdant toute créativité. Cela montre un équilibre délicat : un ordre trop faible produit du bruit, trop élevé entraîne une imitation mécanique. L’ordre 2 ou 3 reste idéal pour l’humour et l’improvisation. J’ai aussi testé la génération à partir d’un prompt, comme “Finally we”, ce qui a produit une phrase hybride, mêlant un thème de blog (aggrégateur Emacs) à une tournure inattendue. Ce résultat illustre la capacité du modèle à imiter mon style, non pas en reproduisant fidèlement, mais en réassemblant des fragments de mon écriture de façon aléatoire, créant un « moi » artificiel, bavard et parfois absurde. Ce projet, bien qu’expérimental, met en lumière les forces et faiblesses des modèles de Markov simples. Il s’agit d’un excellent point d’entrée pour comprendre les bases de la modélisation du langage, mais aussi d’un miroir amusant de l’écriture personnelle. À l’instar du Mark V. Shaney original, il n’a pas pour but de produire du sens, mais de divertir, d’interroger, et de montrer que même un algorithme rudimentaire peut, par la seule combinaison de mots, révéler des fragments de notre pensée.

Liens associés