HyperAI

KI Greift Ein! Identifizierung Der Tatsächlichen Autoren Von „Der Traum Der Roten Kammer“ Und „Heinrich VIII.“ Durch Textanalyse

vor 5 Jahren
Information
Dao Wei
特色图像

Künstliche Intelligenz greift erneut in die Literaturwelt ein, diesmal jedoch zur „Autorensuche“.

Bei manchen literarischen Werken ist der Autor oft ein Rätsel, über das viele unterschiedliche Meinungen bestehen, wenn man sich nicht sicher ist, wer der Autor ist, und wenn das Werk sehr alt ist und keine detaillierten historischen Aufzeichnungen vorliegen.

Um die Wahrheit herauszufinden, müssen zukünftige Forscher viel Energie aufwenden, um Informationen zu finden und Recherchen und Vergleiche durchzuführen. Dennoch sind die wichtigsten Beweise aufgrund bestimmter Einschränkungen oft nicht verfügbar.

Mit dem Eingreifen künstlicher Intelligenz scheint es jedoch eine andere Möglichkeit zu geben, den Nebel zu lichten.

Mithilfe der Datenwissenschaft den Autor von „Der Traum der Roten Kammer“ verifizieren

Was „Der Traum der Roten Kammer“ betrifft, so wird allgemein angenommen, dass Cao Xueqin die ersten achtzig Kapitel schrieb und Gao E die letzten vierzig Kapitel zusammenstellte und weiterschrieb. Auch Literaturwissenschaftler wie Hu Shi, Yu Pingbo und Zhou Ruchang stimmen dieser Aussage zu.

Aber auch in der Literaturwelt gibt es viele unterschiedliche Stimmen. Viele Meister, darunter Lu Xun, Lin Yutang, Wang Guowei und Pai Hsien-yung, glauben, dass alle 120 Kapitel allein von Cao Xueqin fertiggestellt wurden.

  1. Statistische Studie veröffentlicht 1980 

Schon beim ersten internationalen Symposium „Der Traum der Roten Kammer“ im Jahr 1980 versuchten Forscher mit computerstatistischen Methoden, den wahren Urheber des Traums ausfindig zu machen.

Herr Chen Bingzao, ein chinesischer Gelehrter der State University of Wisconsin,Er veröffentlichte einen Aufsatz mit dem Titel „On the Authorship of A Dream of Red Mansions from the Perspective of Lexical Statistics“, der die Aufmerksamkeit der internationalen Redologie-Gemeinschaft erregte.

Chen Bingzao hat die 120 Kapitel umfassende Version von „Der Traum der Roten Kammer“ in drei aufeinanderfolgende Gruppen mit jeweils 40 Kapiteln zusammengestellt. Ein weiteres Werk, Die Helden der Kinder, wurde ebenfalls als vierte Gruppe für die vergleichende Untersuchung aufgenommen.

Die Forschung über den Autor von Traum der Roten Kammer dauert seit Hunderten von Jahren an

Wählen Sie aus jeder Gruppe 80.000 beliebige Wörter aus.Wählen Sie fünf Arten von Wörtern aus: Substantive, Verben, Adjektive, Adverbien und Funktionswörter, diese Wörter wurden angeordnet, gezählt, verglichen und mithilfe der damaligen Computerprogramme verarbeitet, und der Grad der Korrelation zwischen den einzelnen Gruppen wurde ermittelt.

Die statistischen Ergebnisse zeigen, dass die positive Korrelation zwischen den in den ersten achtzig Kapiteln und den letzten vierzig Kapiteln von "Der Traum der Roten Kammer" verwendeten Wörtern 78,57% beträgt., während die positive Korrelation zwischen den in „Der Traum der Roten Kammer“ und „Die Helden der Kinder“ verwendeten Wörtern 32,14% beträgt.
Daraus schloss Professor Chen Bingzao, dass die ersten achtzig Kapitel und die letzten vierzig Kapitel alle von Cao Xueqin allein geschrieben wurden.

  2. Forschung zu modernen SVM-Algorithmen

Doch welche Schlussfolgerungen können wir ziehen, wenn wir maschinelles Lernen zur Urteilsbildung nutzen?

In den letzten Jahren hat ein Ingenieur mithilfe einer einfachen Algorithmusanalyse die Urheberschaft von „Der Traum der Roten Kammer“ untersucht. Er verwendete ein Python-Tool, das auf Merkmale wie die Häufigkeit der im Roman verwendeten Wörter trainiert war, um zwischen stilistischen Problemen in verschiedenen Teilen zu unterscheiden.

Er hat das gesamte Buch in Wörter unterteilt und eine Worthäufigkeitsstatistik erstellt. Nachdem er die am häufigsten vorkommenden Wörter gefunden hatte, zählte er, wie oft sie in jedem Kapitel vorkamen, und ermittelte so die Unterschiede im Wortgebrauch in den verschiedenen Kapiteln.

Dann haben wir mithilfe des SVM-Algorithmus ein Modell erstellt. Wir haben einen Teil der Kapitel aus den ersten 80 Kapiteln und den letzten 40 Kapiteln ausgewählt und sie dem Modell zugeführt, um die Schreibmerkmale zu erlernen. Wir haben auch die restlichen Kapitel als Eingabe verwendet, damit der Computer bestimmen konnte, zu welchem Teil sie gehörten.

Das endgültige Modell kann Vorhersagen mit einer Genauigkeit von 95% treffen, alsoDies beweist indirekt, dass die ersten 80 Kapitel und die letzten 40 Kapitel im Algorithmusmodell offensichtliche Unterschiede im Schreibstil aufweisen und von unterschiedlichen Autoren stammen.

Statistik der Wortverwendung in den ersten 80 Folgen (rot) und den letzten 40 Folgen (blau)

Dieses Projekt hat auch Nachteile.Beispielsweise wurden zu wenige Merkmale ausgewählt und schließlich nur 278 Wörter als Indikatoren ausgewählt., und der Inhalt der Schulung beschränkt sich auf ein Buch, in dem das Problem nicht gründlich erklärt wird.

Handelte es sich bei der Analyse des Autors von „Der Traum der Roten Kammer“ lediglich um einen Probelauf, so war die jüngste Studie eines Wissenschaftlers über den Autor des berühmten Romans „Heinrich VIII.“ weitaus genauer und gründlicher.

Der Autor von Heinrich VIII. bleibt ein Rätsel, KI ergreift Maßnahmen

Wie „Der Traum der Roten Kammer“ hatte auch das berühmte britische Drama „Heinrich VIII.“ mit dem gleichen Problem zu kämpfen. Es wird als Shakespeares letztes Werk bezeichnet, doch sein tatsächlicher Autor könnte mehr als einer sein.

Heinrich VIII. war in der Geschichte ein äußerst tyrannischer Monarch, vergleichbar mit dem düstereren Qin Shi Huang. Allein zwischen 1513 und 1547 ordnete er die Hinrichtung von etwa 1.000 Menschen an. 72.000Politische Gefangene, sogarZwei der sechs FrauenZur Guillotine geschickt.

Aufgrund der Aktualität und des legendären Charakters der Figur selbst gibt es eine endlose Reihe literarischer, filmischer und Fernsehwerke über sie, wie etwa den Roman und die gleichnamige Verfilmung „Die Schwester der Königin“ oder die Fernsehserie „Die Tudors“.

Die Schwester der Königin erzählt die Geschichte von Heinrich VIII. Grausamkeit und Grausamkeit
Mit Scarlett Johansson als Black Widow und Natalie Portman als Black Swan

Das Theaterstück „Heinrich VIII.“ wurde 1612 geschrieben. Es handelt sich um eine Adaption und Interpretation basierend auf Ereignissen im Zusammenhang mit Heinrich VIII. Es wurde viele Male aufgeführt und stieß auf große gesellschaftliche Resonanz.Doch viele Leute stellten nach der Untersuchung des Textes fest, dass sich sein Schreibstil stark von den anderen Werken Shakespeares unterschied.

Manche Leute fragen sich, ob es von jemand anderem gemacht wurde oder das Produkt einer Zusammenarbeit war. Erst 1850 wies ein Forscher ausdrücklich darauf hin, dass ein weitererDer Dramatiker Fletcher könnte an Heinrich VIII. mitgearbeitet haben.

Seine Gründe sind:Fletchers unverwechselbarer Schreibstil findet sich in großem Maße in Heinrich VIII. wieder.

Fletcher (links) wurde der Hauptdramatiker der King's Men, nachdem Shakespeare (rechts) in den Ruhestand ging

Im Laufe des nächsten Jahrhunderts wurde die Urheberschaft weiterhin diskutiert, und manche vermuteten sogar, dass ein dritter Dramatiker, Massinger, an der Komposition beteiligt war.

Dieses Rätsel wurde durch eine aktuelle Studie gelöst. Ein Datenwissenschaftler,Mittels KI-Algorithmen konnte der ursprüngliche Autor des Dramas „Heinrich VIII.“ bis ins kleinste Textdetail genauer ermittelt werden.

Maschinelles Lernen hilft festzustellen, wer der wahre Autor ist

Petr Plecháč, ein Forscher an der Tschechischen Akademie der Wissenschaften in Prag, hat kürzlich Techniken des maschinellen Lernens eingesetzt, um Probleme mit der Urheberschaft in Heinrich VIII. zu identifizieren – mit überzeugenden Ergebnissen. Seine Ergebnisse wurden in einem Artikel niedergeschrieben und auf arXiv hochgeladen.

Adresse: https://arxiv.org/pdf/1911.05652.pdf

In dieser Arbeit nutzte Plecha die Dimension der Datenwissenschaft, um zu bestimmen, wer die einzelnen Teile von „Heinrich VIII.“ geschrieben hat, und lieferte konkrete Argumente.

Durch die Analyse des Inhalts von Textwerken identifizierte er bestimmte Merkmale der Schreibstile verschiedener Autoren, wodurch er die Werke unterschied und detaillierte Unterteilungen und Klassifizierungen vornahm.

Der Algorithmus schrieb schließlich einige Kapitel von Heinrich VIII. Shakespeare und andere Fletcher zu, sodass beiden Männern nahezu gleich große Beiträge zu dem Werk zugesprochen wurden. Darüber hinaus analysiert der Algorithmus auch die Autoren der einzelnen Abschnitte.

Die erste Seite von Heinrich VIII., erstmals veröffentlicht 1623

Am Ende stimmte die durch maschinelles Lernen ermittelte Autorenaufteilung mit den Ansichten einer früheren Mainstream-Studie überein und erzielte auch einige Durchbrüche.

Identifizieren Sie die Quelle des Textes, indem Sie sich seinen Wortschatz und Rhythmus ansehen

Wie hat er das konkret gemacht? Wenn Sie den Stil eines Autors sowie die häufig verwendeten Wörter und Muster verstehen, können Sie ihn verwenden, um die Textkonventionen in neuen Werken zu identifizieren und festzustellen, ob sie vom selben Autor stammen.

In dieser StudieLassen Sie das Algorithmusmodell häufige Wörter im Text und häufige Satzrhythmusmuster lernen und analysieren, damit der Algorithmus lernen kann, diese Merkmale zu erkennen.

Umfassende Analyse des Satzrhythmus (rhythmische Typen) und gebräuchlicher Wörter
Die durch andere Arbeiten bestätigte Modellgenauigkeit liegt nahe 1

Konkret müssen wir zunächst das Drehbuch in mehrere kleine Szenen aufteilen und mithilfe von Support Vector Machines für jede Szene von Heinrich VIII. eine Attributionsanalyse und Klassifizierung durchführen.

Darunter werden die Häufigkeiten der 500 häufigsten Rhythmustypen und die Häufigkeiten der 500 häufigsten Wörter als Merkmalssätze des Klassifikators verwendet.

Angesichts der möglichen Stilunterschiede zwischen Autoren verschiedener Epochen verwendeten die Forscher Szenen aus anderen Stücken derselben Epoche (wie etwa „Der Sturm“ und „Coriolan“) als Trainingsbeispiele. Für mögliche Autoren wurden außerdem Trainingsbeispiele gesammelt.

Endlich gesammelt 53 Shakespeare-Trainingsbeispiele, 90 Fletcher-Trainingsbeispiele und 46 Massinger-Trainingsbeispiele.Um die Genauigkeit des Modells abzuschätzen, wurde es auch mittels Kreuzvalidierung getestet.

Nach dem Training wurde das Modell mit dem Text von Heinrich VIII. ausgeführt. Dabei wurde eine umfassende Analyse des Wortschatzes und der Multifunktionalität kombiniert, um zu ermitteln, welche Autoren am Schreiben des Stücks beteiligt waren und welche spezifischen Beiträge sie geleistet haben.

Das Endergebnis bewies, dass dies ein sehr zuverlässiges Kriterium zur Unterscheidung der Stile der beiden Autoren war. Insbesondere weist das kombinierte Modell unter Verwendung gemeinsamer Wörter und gemeinsamer Rhythmen eine höhere Genauigkeit bei der Stilidentifizierung der drei Autoren auf als 96%.

Die Klassifizierungsergebnisse des Klassifikators für 30 Beispiele aus verschiedenen Kapiteln sind detaillierter als die maßgeblichste Autorenklassifizierung (die letzte Spalte).

Bei der Anwendung auf die Analyse von Heinrich VIII. zeigen die Ergebnisse deutlich die Beteiligung beider Autoren. Ein anderer angeblicher Dramatiker, Massinger, gab auf algorithmischer Ebene an, dass er nichts mit dem Drehbuch zu tun habe. 

Die neue Methode verfeinert den Autor jedes Abschnitts

Um ein zuverlässigeres Bild über den Anteil der Anerkennung zu erhalten, der bestimmten Autoren zugeschrieben wird, verwendete Plechach über die einfache Zuordnung bestimmter Szenen hinaus eine analytische Methode namens „Rollende Zuordnung“, die die Wahrscheinlichkeit ermittelt, mit der ein bestimmter Textabschnitt einem bestimmten Autor gehört.

Die fortlaufende Zuordnung ist eine Technik für Fälle mit gemischter Urheberschaft. Bei der rollierenden Attribution werden nicht der gesamte Text oder seine logischen Teile (Kapitel, Szene usw.) klassifiziert, sondern sich überschneidende Abschnitte mit fester Länge der Klassifizierungsaufgabe unterzogen.

Die fortlaufende Zuordnung bestimmt die Zusammensetzung der anderen Werke der Autoren
Hohe Übereinstimmung mit der tatsächlichen Situation

Die Methode verwendet das Konzept eines gleitenden Fensters und wird mit standardmäßigen überwachten Klassifizierungstechniken kombiniert. Ziel ist es, die Stilunterschiede zwischen einzelnen Textproben zu bewerten, um die Konsistenz ihrer Textstile zu testen.

Die Ergebnisse zeigen, dass die Methode der rollierenden Attribution in Kombination mit lexikalischen Merkmalen sehr zuverlässig ist: Die geschätzte Genauigkeit der rollierenden Attribution beträgt bis zu 0,9977, wenn es darum geht, Shakespeare von Fletcher zu unterscheiden.

Spezifisch für die Autorenaufteilung und Glaubwürdigkeit jedes Kapitels

Mithilfe dieser Methode konnten wir für jedes Kapitel gezielt die Wahrscheinlichkeit ermitteln, mit der es einem bestimmten Autor gehörte. In der Abbildung oben können wir deutlich die Kapitel erkennen, die Shakespeare und Fletcher jeweils fertiggestellt haben.Das Fazit lautet: Shakespeare und Fletcher haben jeweils fast die Hälfte der Inhaltserstellung übernommen.

KI rüstet sich für den Erfolg in der Literatur

Die Verwendung von KI-Algorithmen zur Lösung des Rätsels um den Autor berühmter Werke ist für Literaturforscher und -liebhaber von großem Wert. Gleichzeitig bietet es auch eine Datendimensionsperspektive zur Betrachtung solcher Probleme.

Natürlich können ähnliche KI-Methoden nicht nur zur Autorenidentifizierung, zum Ghostwriting oder zur Plagiatsbeurteilung eingesetzt werden, sondern auch mit Technologien wie GPT-2 kombiniert werden, um Werke in einem bestimmten Stil zu erstellen, mit denen sich im Lauf der Geschichte verloren gegangene Werke möglicherweise besser wiederherstellen lassen.

Wenn man sie aus Bereichen wie Musik und Malerei entlehnt, kann sie nicht nur dazu verwendet werden, die Identität des Autors festzustellen, sondern auch, um im Stil bekannter Autoren neue Werke zu schaffen.

Vor diesem Hintergrund scheint der Tag, an dem KI ein großartiger Autor wird, unmittelbar bevorzustehen.

-- über--