HyperAI

3ヶ月前

自然言語処理

合成

技術者でブロガーのスサム・パル氏は、自身の24年分のブログ記事約20万語を用いて、マーコフモデルでテキストを生成する実験を行った。この実験は、1980年代に登場した有名な「Mark V. Shaney」を模した軽量なテキスト生成プログラム「Mark V. Shaney Jnr」を基にしたもので、GitHubとCodebergに公開されている。同プログラムは、単語の連鎖を学習し、ランダムに次に来る単語を選び出すというシンプルなマーコフチェーンの仕組みに基づく。デフォルトでは3単語の連続（トリグラム）を学習対象とし、2単語のペアをキーに、その次に現れる単語をリストとして記録する。パル氏は、自分のブログ記事をすべて訓練データとして投入した結果、奇妙だが時に滑稽な文章が生成されることを確認した。例えば、「while a query replace operation is approved by the user」といった技術的な文脈が、突然「the exact answer could harm students' self-esteem」と続くなど、意味のつながりが崩れた文章が生まれた。これは、モデルが過去の記事から「Lisp source file」と「self-esteem」といったフレーズを切り離して再構成した結果である。モデルの「オーダー」（連鎖の長さ）を変えることで生成テキストの質も変化する。オーダー2では不自然なつながりが目立つが、オーダー4にすると一時的に意味が通じるようになる。しかしオーダー5以上にすると、原文の一部をほぼそのまま引用するようになり、面白みが失われる。パル氏は、こうしたモデルは「言語モデリングの『Hello, World』」と位置づけ、単純さと再現性の高さが特徴であると説明している。また、初期の単語を指定して生成を開始する機能も備えており、たとえば「Finally we」から始めるように指定すると、「Finally we divide this number by a feed aggregator for Emacs-related blogs」といった、意味が飛躍したが一見自然な文章が得られる。この実験は、AIによる文章生成の本質的な限界と、単純な統計モデルでも人間の文章の雰囲気を模倣できる可能性を示している。

関連リンク

関連リンク

関連リンク

Command Palette

24年分のブログを学習させたMarkovモデルが生成した奇妙なテキストが話題に

関連リンク

Command Palette

24年分のブログを学習させたMarkovモデルが生成した奇妙なテキストが話題に

関連リンク

Command Palette

24年分のブログを学習させたMarkovモデルが生成した奇妙なテキストが話題に

関連リンク