Markov-Modell generiert wirres Textgut aus 24 Jahren Blogposts
Susam Pal, ein begeisterter Entwickler und Hobbyprogrammierer, hat kürzlich ein minimalistisches Markov-Textgeneratormodell namens Mark V. Shaney Junior auf GitHub veröffentlicht. Inspiriert von dem legendären Mark V. Shaney-Programm aus den 1980er Jahren, handelt es sich um eine einfache, aber kreative Implementierung, die Markov-Ketten zur Generierung sinnentfremdeter, dennoch stilistisch anpassungsfähiger Texte nutzt. Pal verwendet solche Experimente regelmäßig, um Ideen zu erforschen – oft ohne praktischen Zweck, sondern aus reiner Neugier. Sein neuestes Projekt basiert auf einem einfachen Algorithmus: Es analysiert benachbarte Wortgruppen (standardmäßig Trigramme) und speichert, welches Wort typischerweise auf ein bestimmtes Wortpaar folgt. Bei der Textgenerierung wählt das Programm zufällig ein Wortpaar aus und ergänzt es mit einem zufälligen Folgewort aus der Liste der möglichen Nachfolger. So entstehen absurde, aber manchmal beunruhigend plausibel klingende Texte. Zunächst trainierte Pal das Modell auf Charles Dickens’ A Christmas Carol, um die Fähigkeit des Systems zu testen, einen stilistisch dichten, wortreichen Text nachzuahmen. Doch dann ging er einen Schritt weiter: Er fütterte das Modell mit allen 24 Jahren seiner eigenen Blogbeiträge – etwa 200.000 Wörter – und ließ es aus diesen Daten neue Texte generieren. Die Ergebnisse sind beeindruckend: Die Texte kombinieren Fachbegriffe aus Programmierung (wie Emacs, Vim, Lisp, Bash), philosophische Reflexionen und persönliche Gedanken aus seinen Artikeln zu Themen wie Selbstbewusstsein, Sprache oder Softwareentwicklung. Besonders ergiebig ist die Kombination von Phrasen aus verschiedenen Beiträgen – etwa „Lisp source file“ aus einem Post über Vim und „self-esteem“ aus einem anderen – die nun völlig sinnfrei nebeneinanderstehen. Ein Beispiel lautet: „Then open a new Lisp source file and the exact answer could harm students' self-esteem.“ Pal zeigt auch, wie sich die Qualität der Ausgabe von der Modellordnung abhängt: Bei Ordnung 2 (Trigramme) entstehen oft inkohärente, aber amüsante Texte. Bei Ordnung 4 wird die Textqualität deutlich besser – die Sätze sind flüssiger und strukturierter. Doch bei Ordnung 5 wird das Ergebnis zu trocken und beginnt, ganze Absätze aus den Originalbeiträgen zu zitieren, was den Spaß nimmt. Zudem kann das Modell auch mit einem Startprompt arbeiten – etwa „Finally we“ – und darauf aufbauend einen konsistenten, wenn auch völlig sinnfreien Text erzeugen. Die Ergebnisse illustrieren eindrücklich, wie einfach ein Algorithmus sein kann, um komplexe Sprachmuster zu imitieren – und wie leicht menschliche Gedanken und Kontexte in eine sinnfreie, aber stilistisch überzeugende Sprache verwandelt werden können. Das Projekt ist weniger eine technische Innovation als eine poetische Reflexion über Sprache, Gedächtnis und das Wesen von Text. Industrieexperten sehen darin eine gelungene Demonstration der Grenzen und Möglichkeiten einfacher Sprachmodelle. „Es zeigt, dass bereits einfache statistische Modelle überraschend komplexe Sprachstrukturen nachahmen können – ohne echtes Verständnis“, sagt ein NLP-Forscher. Pal, bekannt für seine klaren, philosophisch angehauchten Programmier-Beiträge, nutzt seine Plattform nicht nur zur Technologie, sondern auch zur Selbstreflexion. Sein Projekt steht exemplarisch für die Kultur der „exploratory programming“ – der Freude am Experimentieren, ohne Ziel, nur um zu entdecken.
