HyperAI超神経

AIが介入!テキスト分析を使用して、「紅楼夢」と「ヘンリー 8 世」の実際の作者を特定する

5年前
情報
Dao Wei
特色图像

人工知能が再び文壇に介入したが、今度は「作家を見つける」ために利用される

一部の文学作品の場合、年齢や詳細な歴史的記録の欠如に加え、作者が不確かな場合、作者の問題はさまざまな意見があり、謎となることがよくあります。

真実を発見するために、将来の世代の研究者は、情報の検索と調査と比較の実施に多大なエネルギーを費やす必要があるでしょう。それでも、いくつかの制限により、最も重要な証拠が得られないことがよくあります。

しかし、人工知能の介入により、霧を晴らす別の方法があるようです。

データサイエンスを活用して「紅楼夢」の作者を検証

『紅楼夢』については、最初の 80 章は曹雪勤が執筆し、最後の 40 章は高邑が編纂して続行したと一般に考えられており、胡石、余萍波、周如昌らもこの意見に同意している。

しかし、文壇には魯迅、林宇棠、王国偉、白献勇、その他多くの巨匠らを含め、曹雪勤が単独で全120章を完成させたと信じているさまざまな声がある。

  1. 1980年に発表された統計研究 

1980 年にはすでに、最初の国際「紅楼夢」シンポジウムで、研究者たちはコンピューター統計的手法を使用して、その実際の作者を見つけ出そうとしました。

米国ウィスコンシン州立大学の中国人学者、チェン・ビンザオ氏はこう語る。論文「語彙統計に基づく『紅楼夢』の著者問題」を発表、国際紅楼共同体から注目を集める。

チェン・ビンザオは『紅楼夢』の 120 章を順番に 3 つのグループにまとめ、各グループは 40 章で構成されています。別の「息子と娘の英雄」も比較研究の第4グループとして使用されます。

『紅楼夢』の作者に関する関連研究は何百年も続いている

各グループから 80,000 語を取り出して、名詞、動詞、形容詞、副詞、機能語の 5 種類の単語を選択します。、これらの単語を並べ、数え、比較し、当時の計算プログラムで処理し、各グループの相関度を求めました。

統計結果によると、『紅楼夢』の最初の 80 章と最後の 40 章で使用される語彙は、78.57% によって正の相関があることが示されています。、「紅楼夢」と「息子娘の英雄」で使われた単語の正の相関度は32.14%となった。
このことから、チェン・ビンザオ教授は、最初の80章と最後の40章は両方とも曹雪勤によって書かれたものであると結論付けました。

  2. 最新のSVMアルゴリズムの研究

しかし、機械学習を使って判断した場合、どのような結論が導き出されるでしょうか?

近年、あるエンジニアは単純なアルゴリズム分析を使用して、『紅楼夢』の作者を研究しました。彼は、小説内の単語の頻度などの特徴をトレーニングした Python ツールを使用して、さまざまな部分の文体の問題を区別しました。

彼は、本全体を単語に分割し、頻度の高い単語を見つけた後、各章での単語の頻度を数え、章ごとの単語の使用習慣の違いを取得しました。

次に、SVM アルゴリズムを使用してモデルが構築され、最初の 80 章と最後の 40 章から、各章の一部が選択されてモデルに入力され、文章の特徴が学習され、残りの章が入力として使用されました。コンピューターはそれらがどの部分に属しているかを判断します。

最終モデルは 95% の精度で予測と判断を行うことができるため、最初の 80 章と最後の 40 章は、アルゴリズム モデルの文体に明らかな違いがあり、著者が異なることが確認されています。

最初の 80 章 (赤) と最後の 40 章 (青) の単語使用統計

このプロジェクトにも欠点はありますが、たとえば、選択された特徴量が少なすぎて、最終的に指標として選択された単語は 278 個だけでした。、研修内容も1冊に限られており、問題を厳密に解説できていません。

「紅楼夢」の作者の分析が単なる小さなテストであるとすれば、有名な「ヘンリー八世」の作者に関する最近の科学者の研究ははるかに正確で厳密です。

「ヘンリー8世」の作者は謎、AIが行動を起こした

『紅楼夢』と同様、イギリスの劇文学として有名な『ヘンリー八世』も同様の問題に直面しており、シェイクスピア最後の作品と言われていますが、実際の作者は複数人である可能性があります。

歴史上のヘンリー 8 世は、暗黒の秦の始皇帝に匹敵する極めて横暴な君主であり、1513 年から 1547 年の間だけでも、約 4 人の処刑を命じました。 72,000政治犯、さらには妻6人のうち2人ギロチンに送られました。

このキャラクターの話題性と伝説的な性質により、小説や同名の改作映画「The Other Boleyn Girl」、テレビシリーズ「The Tudors」など、彼に関する文学作品や映画作品が数え切れないほど作られてきました。

『もう一人のブーリンの少女』はヘンリー8世の残忍さと残酷さの物語を語る
主演は「ブラック・ウィドウ」のスカーレット・ヨハンソンと「ブラック・スワン」のナタリー・ポートマン

劇『ヘンリー八世』は 1612 年に書かれ、ヘンリー 8 世にまつわる出来事を基に翻案・解釈された作品であり、何度も上演され、大きな社会的反響を呼びました。しかし、テキストを研究した後、多くの人はその文体がシェイクスピアの他の作品とは大きく異なることに気づきました。

それが他人の仕事なのか、それとも共同作業の産物なのかを疑問視する人もいます。 1850 年になって初めて、研究者たちは別の要因が存在することを具体的に指摘しました。劇作家フレッチャーは「ヘンリー8世」の協力者かもしれない

彼の理由は次のとおりです。フレッチャーの独特の文体は『ヘンリー 8 世』に多く見られます。

フレッチャー(左)はシェイクスピア(右)退任後、国王の劇作家となった

次の世紀にわたって、作者に関する議論は続き、3人目の劇作家マッシンガーも創作に参加したと信じる人さえいました。

この謎は最近の研究のおかげで明らかになりました。データサイエンティスト、AI アルゴリズムを使用して、劇「ヘンリー 8 世」の原作者がテキストのあらゆるセクションに至るまでより詳細に特定されました。

機械学習が真の著者を特定するスキルを発揮

プラハのチェコ科学アカデミーの研究者、ペトル・プレハチ氏は最近、機械学習テクノロジーを使用して『ヘンリー八世』の作者の問題点を特定し、説得力のある結果を達成した。彼の結果は論文に書かれ、arXiv にアップロードされました。

アドレス: https://arxiv.org/pdf/1911.05652.pdf

この著作で、プレッチャはデータサイエンスの観点から、『ヘンリー八世』の各パートを誰が書いたかを特定し、具体的な議論を行った。

彼は、テキスト作品の内容を分析することによって、さまざまな作者の文体の特定の特徴を特定し、それによって作品を特定し、それらを慎重に分割して分類しました。

このアルゴリズムは最終的に、『ヘンリー八世』の一部の章をシェイクスピアの作とし、その他の章をフレッチャーの作と認定し、二人の作品への貢献がほぼ同等となった。それだけでなく、アルゴリズムでは各セクションの著者についても詳しく説明します。

ヘンリー 8 世の最初のページ、1623 年に初版発行

最終的に、機械学習によって与えられた著者の分類は、以前の主流の研究の見解と一致しており、いくつかの画期的な進歩も見られました。

語彙とリズムから始めてテキストの出典を特定する

彼は具体的にどのようにそれを行ったのでしょうか?著者のスタイルと一般的な単語やパターンを理解したら、それを使用して新しい作品のテキスト規則を特定し、それが同じ作者によるものかどうかを判断できます。

この研究では、アルゴリズム モデルにテキスト内の一般的な単語と一般的な文章のリズム パターンを学習および分析させ、アルゴリズムがこれらの特徴を識別できるようにします。

文章のリズム(リズムタイプ)とよく使われる単語を総合的に分析
また、他の作品で検証されたモデルの精度は 1 に近いです。

具体的には、まず脚本を複数の小さなシーンに絞り込み、サポート ベクター マシンを使用して「ヘンリー 8 世」の各シーンの属性分析と分類を行う必要があります。

このうち、最も一般的な 500 個のリズム タイプの頻度と、最も一般的な 500 個の単語の頻度が分類器の特徴セットとして使用されます。

異なる時代の作者間の文体の違いの可能性を考慮して、研究者らは同じ時代の他の演劇(「テンペスト」や「コリオレイヌス」など)のシーンをトレーニングサンプルとして使用しました。潜在的な著者についても、トレーニング サンプルが同様に収集されました。

やっと集められた 53 個のシェイクスピア トレーニング サンプル、90 個のフレッチャー トレーニング サンプル、および 46 個のマッシンジャー トレーニング サンプル。モデルの精度を推定するために、相互検証も実行されました。

トレーニング学習の完了後、モデルは「ヘンリー 8 世」のテキストに対して実行され、語彙と多機能性の包括的な分析と組み合わせて、どの著者が脚本の執筆に参加したか、およびその具体的な貢献を特定しました。

最終結果は、これが 2 人の著者のスタイルを区別するための非常に信頼できる基準であることを証明しました。特に、共通の単語と共通のリズムを用いた結合モデルは、96% よりも 3 人の作家のスタイルを識別する精度が高くなります。

分類器による異なる章からの 30 個のサンプルの分類結果は、最も権威のある著者の分類 (最後の列) よりも詳細です。

ヘンリー 8 世の分析に適用すると、結果は明らかに両著者の関与を示しています。もう一人の噂の劇作家マッシンガーは、アルゴリズムのレベルで、自分は脚本とは何の関係もないと述べた。 

新しい方法で各セクションの著者を絞り込む

特定の作者のシェアをより確実に理解し、特定のシーンの単純な帰属を超えるために、プレシャージュはローリング帰属と呼ばれる分析方法を使用して、特定のテキスト断片が特定の作者に属する確率を決定しました。

ローリング帰属は、著者が混在する場合の手法です。ローリング アトリビューションでは、テキスト全体またはその論理的な部分 (章、シーンなど) を分類する代わりに、固定長の重複部分を分類するタスクが実行されます。

ローリング帰属により、2 人の著者の他の作品の著者構成が決定されます
実際の状況と非常に一致しています

この方法では、移動ウィンドウの概念が使用され、標準の教師あり分類手法と組み合わせられます。個別のテキスト サンプル間のスタイルの違いを評価して、テキスト スタイルの一貫性をテストするように設計されています。

結果は、語彙特徴を組み込んだローリング帰属法が非常に信頼できることを示しています。シェイクスピアとフレッチャーを区別する場合、ローリング帰属の精度は 0.9977 と高いと推定されます。

各章に固有の著者の分類と信頼性

この方法を使用して、各章が特定の著者に帰属する可能性が決定されました。上の画像では、シェイクスピアとフレッチャーによって完成された章がはっきりとわかります。結論は、シェイクスピアとフレッチャーはそれぞれ、コンテンツ作成のほぼ半分を完了したということです。

文学の分野でもAIの活用が進んでいる

AI アルゴリズムを使用して有名な作品の作者の謎を解読することは、文学研究者や愛好家にとって非常に価値のあることです。また、このような問題を考察するためのデータ次元の視点も提供します。

もちろん、同様のAI手法は、作者の特定やゴーストライティング、盗作の判定などに応用されるだけでなく、GPT-2などの技術と組み合わせることで、これまでに作られた作品を更新することもできるかもしれません。長い歴史の中で失われたもの。

音楽や絵画などの側面を利用すると、作者のアイデンティティを特定できるだけでなく、既知の作者のスタイルを使用して新しい作品を作成することもできます。

そう考えると、AIが文豪になる日も近いかもしれません。

- 以上 -