L'IA Intervient ! Identifier Les Auteurs Réels Du Rêve Dans Le Pavillon Rouge Et D'henri VIII Par Analyse De Texte

L'intelligence artificielle intervient à nouveau dans le monde littéraire, mais cette fois-ci, elle est utilisée pour « trouver des auteurs ».
Pour certaines œuvres littéraires, si le créateur n’est pas certain, et que l’œuvre est très ancienne et qu’il n’existe pas de documents historiques détaillés, la question de l’auteur deviendra souvent un mystère avec de nombreuses opinions différentes.
Afin de découvrir la vérité, les futurs chercheurs devront consacrer beaucoup d’énergie à trouver des informations et à mener des recherches et des comparaisons. Cependant, les preuves les plus cruciales ne sont souvent pas disponibles en raison de certaines limitations.
Cependant, avec l’intervention de l’intelligence artificielle, il semble y avoir un autre moyen de dissiper le brouillard.
Utiliser la science des données pour vérifier l'auteur de Dream of the Red Chamber
En ce qui concerne « Le Rêve de la Chambre Rouge », on pense généralement que Cao Xueqin a écrit les quatre-vingts premiers chapitres et que Gao E a compilé et continué à écrire les quarante derniers chapitres. Des spécialistes de la littérature tels que Hu Shi, Yu Pingbo et Zhou Ruchang sont également d’accord avec cette affirmation.
Mais il existe aussi de nombreuses voix différentes dans le monde littéraire. De nombreux maîtres, dont Lu Xun, Lin Yutang, Wang Guowei et Pai Hsien-yung, croient tous que les 120 chapitres ont été complétés par Cao Xueqin seul.
1. Étude statistique publiée en 1980
Dès le premier symposium international « Le Rêve dans le pavillon rouge » en 1980, les chercheurs ont utilisé des méthodes statistiques informatiques pour tenter de découvrir son véritable auteur.
M. Chen Bingzao, un universitaire chinois de l'Université d'État du Wisconsin,Il a publié un article intitulé « Sur la paternité d'A Dream of Red Mansions du point de vue des statistiques lexicales », qui a attiré l'attention de la communauté internationale de Redology.
Chen Bingzao a compilé la version de 120 chapitres de « Rêve dans le pavillon rouge » en trois groupes séquentiels, avec 40 chapitres dans chaque groupe. Une autre œuvre, Les Héros des enfants, a également été incluse comme quatrième groupe d’étude comparative.

Choisissez 80 000 mots dans chaque groupe.Choisissez cinq types de mots : les noms, les verbes, les adjectifs, les adverbes et les mots de fonction, ces mots ont été classés, comptés, comparés et traités par les programmes informatiques de l'époque, et le degré de corrélation entre chaque groupe a été trouvé.
Les résultats statistiques montrent que la corrélation positive entre les mots utilisés dans les quatre-vingts premiers chapitres et les quarante derniers chapitres de « Dream of Red Mansions » est de 78,57%, tandis que la corrélation positive entre les mots utilisés dans A Dream of Red Mansions et The Heroes of the Children est de 32,14%.
De cela, le professeur Chen Bingzao a déduit que les quatre-vingts premiers chapitres et les quarante derniers chapitres ont tous été écrits par Cao Xueqin seul.
2. Recherche sur les algorithmes SVM modernes
Mais quelles conclusions pouvons-nous tirer si nous utilisons l’apprentissage automatique pour émettre des jugements ?
Ces dernières années, un ingénieur a utilisé une analyse d’algorithme simple pour étudier la paternité du Rêve dans la chambre rouge. Il a utilisé un outil Python, formé sur des caractéristiques telles que la fréquence des mots utilisés dans le roman, pour distinguer les problèmes de style dans différentes parties.


Il a segmenté l’ensemble du livre en mots et a effectué des statistiques de fréquence des mots. Après avoir trouvé les mots les plus fréquents, il a compté le nombre de fois où ils apparaissaient dans chaque chapitre, obtenant ainsi les différences dans les habitudes d’utilisation des mots dans différents chapitres.
Nous avons ensuite construit un modèle en utilisant l’algorithme SVM. Nous avons sélectionné une partie des chapitres parmi les 80 premiers et les 40 derniers chapitres et les avons transmis au modèle pour apprendre les caractéristiques d'écriture. Nous avons également utilisé les chapitres restants comme entrée pour permettre à l’ordinateur de déterminer à quelle partie ils appartenaient.
Le modèle final peut faire des prédictions avec une précision de 95%, doncCela prouve indirectement que les 80 premiers chapitres et les 40 derniers chapitres présentent des différences évidentes dans le style d'écriture du modèle d'algorithme et appartiennent à des auteurs différents.

Ce projet présente également des inconvénients.Par exemple, trop peu de caractéristiques ont été sélectionnées et seulement 278 mots ont finalement été sélectionnés comme indicateurs., et le contenu de la formation se limite à un seul livre, ce qui ne parvient pas à expliquer le problème de manière rigoureuse.
Si l'analyse de l'auteur du « Rêve dans le pavillon rouge » n'était qu'un essai, alors l'étude récente d'un scientifique sur l'auteur du célèbre roman « Henri VIII » était beaucoup plus précise et rigoureuse.
L'auteur d'Henri VIII reste un mystère, l'IA entre en action
Tout comme « Le Rêve dans le Manoir Rouge », le célèbre drame britannique « Henri VIII » a également rencontré le même problème. On la considère comme la dernière œuvre de Shakespeare, mais son véritable auteur pourrait être plus d'une personne.
Henri VIII était un monarque extrêmement tyrannique dans l'histoire, comparable au plus sombre Qin Shi Huang. Entre 1513 et 1547 seulement, il ordonna l’exécution d’environ 1 000 personnes. 72 000Les prisonniers politiques, mêmeDeux des six épousesEnvoyé à la guillotine.
En raison de l'actualité et de la nature légendaire du personnage lui-même, il existe un flux incessant d'œuvres littéraires, cinématographiques et télévisuelles à son sujet, comme le roman et son adaptation cinématographique du même nom « The Other Boleyn Girl », et la série télévisée « The Tudors ».

Avec Scarlett Johansson dans le rôle de Black Widow et Natalie Portman dans celui de Black Swan
La pièce « Henri VIII » a été écrite en 1612. Il s'agit d'une adaptation et d'une interprétation basées sur des événements liés à Henri VIII. Elle a été mise en scène à de nombreuses reprises et a reçu une grande réponse sociale.Mais après avoir étudié le texte, de nombreuses personnes ont découvert que son style d’écriture était très différent des autres œuvres de Shakespeare.
Certaines personnes se demandent si cette œuvre a été réalisée par quelqu’un d’autre ou si elle est le fruit d’une collaboration. Ce n’est qu’en 1850 qu’un chercheur a spécifiquement souligné qu’un autreLe dramaturge Fletcher a peut-être collaboré à Henri VIII.
Ses raisons sont :Une grande partie du style d'écriture distinctif de Fletcher se retrouve dans Henri VIII.

Au cours du siècle suivant, le débat sur la paternité de l'œuvre s'est poursuivi, certains suggérant même qu'un troisième dramaturge, Massinger, était impliqué.
Ce mystère a été élucidé grâce à une étude récente. Un scientifique des données,Grâce à des algorithmes d'IA, l'auteur original du drame « Henri VIII » a été retrouvé plus en détail, jusqu'à chaque détail du texte.
L'apprentissage automatique permet de déterminer qui est le véritable auteur
Petr Plecháč, chercheur à l'Académie tchèque des sciences de Prague, a récemment utilisé des techniques d'apprentissage automatique pour identifier les problèmes d'auteur dans Henri VIII avec des résultats convaincants. Ses résultats ont été rédigés dans un article et téléchargés sur arXiv.

Dans cet ouvrage, Plecha a utilisé la dimension de la science des données pour déterminer qui a écrit chaque partie de « Henri VIII » et a fourni des arguments spécifiques.
En analysant le contenu des œuvres textuelles, il a identifié certaines caractéristiques des styles d’écriture de différents auteurs, distinguant ainsi les œuvres et effectuant des divisions et des classifications détaillées.
L'algorithme a finalement attribué certains chapitres d'Henri VIII à Shakespeare et d'autres à Fletcher, donnant aux deux hommes des contributions presque égales à l'œuvre. De plus, l’algorithme décompose également les auteurs de chaque section spécifique.

En fin de compte, la division des auteurs donnée par l’apprentissage automatique était cohérente avec les points de vue d’une étude principale précédente et a également permis certaines avancées.
Identifiez la source du texte en regardant son vocabulaire et son rythme
Comment l'a-t-il fait concrètement ? Une fois que vous comprenez le style d’un auteur et les mots et modèles couramment utilisés, vous pouvez l’utiliser pour identifier les conventions textuelles dans les nouvelles œuvres afin de déterminer si elles proviennent du même auteur.
Dans cette étude,Laissez le modèle d’algorithme apprendre et analyser les mots courants dans le texte et les modèles de rythme de phrase courants afin que l’algorithme puisse apprendre à identifier ces caractéristiques.

La précision du modèle vérifiée par d'autres travaux est proche de 1
Plus précisément, nous devons d’abord décomposer le script en plusieurs petites scènes et utiliser des machines à vecteurs de support pour effectuer une analyse d’attribution et une classification sur chaque scène d’Henri VIII.
Parmi eux, les fréquences des 500 types de rythmes les plus courants et les fréquences des 500 mots les plus courants sont utilisés comme ensembles de caractéristiques du classificateur.
Étant donné les différences possibles de styles entre les auteurs de différentes périodes, les chercheurs ont utilisé des scènes d’autres pièces de la même période (comme La Tempête et Coriolan) comme échantillons d’entraînement. Pour les auteurs potentiels, des échantillons de formation ont également été collectés.
Enfin collecté 53 échantillons de formation Shakespeare, 90 échantillons de formation Fletcher et 46 échantillons de formation Massinger.Afin d’estimer la précision du modèle, une validation croisée a également été utilisée pour le tester.
Après la formation, le modèle a été exécuté sur le texte d'Henri VIII, combinant une analyse complète du vocabulaire et de la multifonctionnalité pour déterminer quels auteurs ont été impliqués dans l'écriture de la pièce et leurs contributions spécifiques.
Le résultat final a prouvé qu’il s’agissait d’un critère très fiable pour distinguer les styles des deux auteurs. En particulier, le modèle combiné utilisant des mots et des rythmes communs présente une précision supérieure à celle du 96% dans l'identification du style des trois auteurs.

Appliqués à l’analyse d’Henri VIII, les résultats montrent clairement l’implication des deux auteurs. Un autre dramaturge dont on parle, Massinger, a indiqué au niveau algorithmique qu'il n'avait rien à voir avec le scénario.
La nouvelle méthode affine l'auteur de chaque section
Pour obtenir une image plus fiable de la part de crédit accordée à des auteurs spécifiques, au-delà de la simple attribution de scènes spécifiques, Plechach a utilisé une méthode analytique appelée attribution continue, qui détermine la probabilité qu'un texte spécifique appartienne à un certain auteur.
L'attribution continue est une technique utilisée dans les cas impliquant une paternité mixte. Dans l'attribution continue, au lieu de classer le texte entier ou ses parties logiques (chapitre, scène, etc.), des parties de longueur fixe qui se chevauchent sont soumises à la tâche de classification.

Très cohérent avec la situation réelle
La méthode utilise le concept de fenêtre mobile et est combinée avec des techniques de classification supervisée standard. Il vise à évaluer les différences de style entre des échantillons de texte distincts pour tester la cohérence de leurs styles de texte.
Les résultats montrent que la méthode d’attribution continue combinée à des caractéristiques lexicales est très fiable : la précision estimée de l’attribution continue est aussi élevée que 0,9977 pour distinguer Shakespeare de Fletcher.

Grâce à cette méthode, nous avons pu déterminer précisément la probabilité que chaque chapitre appartienne à un certain auteur. Dans la figure ci-dessus, nous pouvons clairement voir les chapitres que Shakespeare et Fletcher ont chacun complétés.La conclusion est la suivante : Shakespeare et Fletcher ont chacun réalisé près de la moitié de la création du contenu.
L'IA se prépare au succès dans la littérature
L’utilisation d’algorithmes d’IA pour résoudre le mystère de l’auteur d’œuvres célèbres est une chose très précieuse pour les chercheurs et les passionnés de littérature. En même temps, il offre également une perspective de dimension de données pour examiner ces questions.
Bien sûr, en plus d'être utilisées pour l'identification des auteurs, la rédaction fantôme ou le jugement du plagiat, des méthodes d'IA similaires peuvent également être combinées avec des technologies telles que GPT-2 pour générer des œuvres dans un certain style, ce qui peut être en mesure de mieux restaurer ces œuvres perdues dans le long fleuve de l'histoire.
Si l'on emprunte à des aspects tels que la musique et la peinture, on peut non seulement l'utiliser pour déterminer l'identité de l'auteur, mais aussi pour créer de nouvelles œuvres en utilisant le style d'auteurs connus.
Dans cet esprit, il semble que le jour où l’IA deviendra un grand écrivain soit proche.

-- sur--