Maître Xianchao Du Temple De Longquan : Utiliser L'ia Pour Identifier, Segmenter Et Traduire Les Écritures Anciennes

Maître Xianchao du temple Longquan, le temple de recherche scientifique le plus puissant, étudie ces dernières années l'intégration de l'intelligence artificielle et des documents anciens. À l’heure actuelle, l’équipe « Tripitaka » qu’il dirige a mis en œuvre des pratiques techniques telles que la ponctuation automatique par IA, la traduction littéraire et vernaculaire et la reconnaissance de textes anciens.
Le temple Longquan, situé au pied de Fenghuangling dans la banlieue de Pékin, peut être considéré comme le temple bouddhiste doté des capacités de recherche scientifique les plus fortes du pays et même du monde.
Basé sur un dicton de Maître Xuecheng « Le bouddhisme est ancien, mais les bouddhistes sont modernes », qui a encouragé les moines du temple de Longquan à s'engager dans la recherche scientifique et à écrire du code, à combiner le bouddhisme avec les nouvelles technologies et à populariser et internationaliser les projets. Les résultats sont infinis et les produits ont été fréquemment recherchés et ont attiré une attention continue du monde extérieur.
Récemment, Maître Xianchao du temple de Longquan a participé à une conférence sur la technologie nationale et a partagé les pratiques techniques d'utilisation de l'intelligence artificielle pour organiser et relire le Tripitaka.
La naissance de l'IA bouddhiste : rendre les écritures bouddhistes plus faciles à lire
Maître Xianchao était à l'origine un maître en physique de la matière condensée de l'École de physique de l'Université de Pékin. Il est diplômé de l'Université de Pékin en 2007 et s'est converti au bouddhisme au temple de Longquan en 2008. Depuis lors, il se consacre à l'édition et à la révision du Tripitaka de Longquan et à l'étude des doctrines bouddhistes.
En 2016, la victoire historique d'AlphaGo sur Lee Sedol a attiré l'attention de Maître Xianchao sur l'IA. À partir de ce moment, il a commencé à essayer de combiner l’IA avec la technologie OCR et la ponctuation automatique sur laquelle il faisait des recherches.

L'IA native de Bouddha résout les problèmes des écritures anciennes
Le Tripitaka compilé et collationné par le temple Longquan est une collection d'écritures bouddhistes, également connue sous le nom de Tripitaka. Au cours des plus de deux mille ans du bouddhisme chinois, les dynasties successives ont traduit, complété et révisé le Tripitaka.
Il existe des dizaines de versions transmises jusqu'à ce jour, la plus courte comportant plus de 5 000 mots et la plus longue plus de 120 millions de mots.

En 2012, le monastère de Longquan a commencé à compiler le Tripitaka.Le projet devrait durer dix ans. Parce que les méthodes traditionnelles de tri des livres anciens incluent principalement la relecture des versions, le collationnement et la ponctuation.Ces étapes peuvent garantir que les lecteurs contemporains peuvent comprendre les écritures obscures et inconnues aussi bien que possible.
Trois ans plus tard, le temple Longquan a compilé et publié les « Huit grandes œuvres de Nanshan » ; l'année suivante, le Bureau des écritures bouddhistes du temple de Longquan a été créé, dans le but d'explorer l'utilisation de la technologie de l'intelligence artificielle et de développer un moteur de reconnaissance de mots uniques basé sur l'apprentissage profond ;
En 2017, le temple Longquan a créé un centre d'intelligence artificielle et de technologie de l'information, a développé un moteur de reconnaissance de colonnes entières capable d'identifier différentes versions du Tripitaka et a numérisé avec succès la version Tripitaka du « Sutra Avatamsaka en soixante volumes ».
Maître Xianchao est actuellement directeur du Bureau du Canon Bouddhiste et est responsable de la compilation du Tripitaka.
Ponctuation automatique : OCR + Deep Learning
Afin d'abaisser le seuil de lecture des anciens classiques chinois et d'améliorer l'efficacité du travail des érudits, l'équipe du Maître Xianchao a, ces dernières années,L’utilisation de technologies telles que l’apprentissage profond et l’OCR pour changer la manière traditionnelle d’interpréter le Tripitaka a donné des résultats assez étonnants.

Maître Xianchao a présenté,La ponctuation automatique fait référence à la technologie de marquage automatique de la ponctuation chinoise moderne pour les textes anciens sur la base d'algorithmes sans intervention humaine.Ceci est principalement destiné à la commodité des lecteurs modernes.
Des études connexes ont déjà été menées sur l’utilisation de l’intelligence artificielle pour ajouter de la ponctuation aux textes chinois anciens. Cependant, Maître Xianchao a déclaré qu'auparavant, il s'agissait simplement d'ajouter des points aux anciens textes chinois. Il estime que cette approche est « plus conservatrice et plus académique ».
Son équipe a appliqué l’apprentissage profond à la ponctuation automatique.Vous pouvez ajouter des signes de ponctuation tels que le point, la virgule, le point d'interrogation, le point d'exclamation, le deux-points, le point-virgule et le deux-points aux textes anciens avec une plus grande précision.Après vérification, les résultats d’étiquetage du transformateur qu’ils ont développés sont « presque impossibles à distinguer » des résultats d’étiquetage humain.
RNN+LSTM+ResNet a amélioré l'effet global
La ponctuation automatique, dans le domaine du PNL, est un simple problème d'étiquetage de séquence. L’approche standard pour résoudre ce type de problème consiste à utiliser un réseau neuronal récurrent (RNN).
Afin d'améliorer les performances du RNN, un RNN bidirectionnel a été développé sur cette base, c'est-à-dire que la sortie à chaque instant dépend non seulement de toutes les entrées de l'instant précédent, mais également des entrées précédentes et suivantes. Par la suite, l’équipe de Maître Xianchao a présenté la méthode LSTM.
Cependant, la ponctuation automatique obtenue jusqu'à présent grâce à ces technologies n'est toujours pas très satisfaisante. La raison pour laquelle l'équipe de Maître Xianchao a obtenu des résultats inattendus est qu'elle a introduit le réseau résiduel ResNet sur la base des travaux précédents.

Maître Xianchao a expliqué que les réseaux neuronaux précédents avaient des structures d’au plus une douzaine ou une vingtaine de couches. Si le nombre de couches augmentait, les résultats de la formation ne seraient pas faciles à converger.Le réseau résiduel peut comporter des centaines, voire des milliers de couches. Des réseaux plus profonds aident à capturer des informations sémantiques plus profondes, ce qui est la clé de son grand succès.
L’équipe a également essayé d’utiliser des réseaux neuronaux convolutifs (CNN). Le résultat final était que le réseau résiduel avait une précision de ponctuation moyenne qui était environ 20-30% supérieure à celle du réseau neuronal convolutif.
Quelle est l’efficacité de l’outil de ponctuation automatique de l’IA ?Maître Xianchao a terminé la ponctuation d'un ancien texte chinois d'environ 20 000 mots en une journée. Selon le niveau général de rémunération de 15 yuans pour mille mots pour la ponctuation des textes anciens, cela équivaut à créer une valeur économique de 300 yuans par jour.Même si la précision de la ponctuation automatique est calculée uniquement sur la base de 60%, elle crée toujours une valeur de 180 yuans par jour.

À l’heure actuelle, étant donné que les données de formation de l’équipe du Maître Xianchao sont principalement tirées des écritures bouddhistes, sa ponctuation automatique est plus adaptée à la ponctuation des textes bouddhistes. Cependant, a-t-il dit,À l’avenir, cette technologie sera également utilisée dans la compilation de documents anciens dans davantage de domaines tels que les classiques, l’histoire et les ouvrages divers, libérant ainsi les chercheurs du travail mécanique et répétitif.
À l’avenir, le mode de fonctionnement de la relecture des livres anciens devrait être modifié comme suit : l’IA commencera par séparer les phrases et ajoutera de la ponctuation ; des universitaires professionnels procéderont ultérieurement à la relecture et à la révision.
L'équipe de Maître Xianchao a rendu open source ce service de ponctuation automatique en ligne en 2018.Vous pouvez visiter GuJiCool (http://gj.cool) pour un essai et demander des appels API gratuits.
Reconnaissance et traduction : l'IA devient un véritable coffre aux trésors pour la traduction chinoise des écritures bouddhistes
En plus de la ponctuation automatique, Maître Xianchao applique également l'IA à de nombreux aspects de la recherche sur les livres anciens.
Distiques littéraires et vernaculaires : alignement et traduction
Les distiques littéraires et vernaculaires sont l'alignement et la traduction du chinois ancien en chinois moderne. Afin de réaliser des distiques littéraires et vernaculaires IA, Maître Xianchao a d'abord construit un corpus de textes littéraires et vernaculaires alignés, puis a conçu un algorithme d'alignement, qui a obtenu de très bons résultats.Sur la base des deux indicateurs indépendants de similarité et de différence, il est très facile de localiser les phrases mal alignées.

Étant donné que le Tripitaka contient de nombreux termes professionnels et que le corpus des œuvres traduites des dynasties passées est complexe, il ne s’agit pas d’un sujet qui peut être maîtrisé par des professionnels liés au chinois ancien. Le nombre total de personnages du Tripitaka se compte en milliards. Si nous nous appuyons uniquement sur un nombre limité d’experts, la charge de travail sera énorme. L’intervention de l’IA a donc permis de partager une grande partie de la charge de travail des experts.
OCR basé sur l'apprentissage profond, reconnaissant les textes anciens
Actuellement, les logiciels OCR disponibles sur le marché sont tous destinés aux textes imprimés, ils ne peuvent donc pas très bien reconnaître les polices des livres et documents anciens.
Maître Xianchao et son équipe ont développé un nouveau moteur OCR basé sur le framework CNN+LSTM+CTC. Ensuite, la formation a été réalisée sur la base d'un ensemble de données de plus de 70 000 images complètes et de 1,68 million d'images de lignes de texte du Tripitaka (édition Koryo).

En fin de compte, la méthode OCR qu'ils ont développée est capable de reconnaître un seul mot, une seule colonne et une reconnaissance semi-automatique multicolonne de livres anciens, et peut compléter efficacement la numérisation de divers types de livres anciens.

Maître Xianchao a également publié sur son compte public WeChat « Xianchao Petit Moine » (ID WeChat : xianchaofashi)Dans cet article, j’ai partagé davantage de pratiques de projet et d’idées sur le bouddhisme. Les amis intéressés peuvent le suivre.
Technologie et bouddhisme : différentes externalisations de la compassion
Le bouddhisme et la technologie ne sont pas si éloignés l’un de l’autre.
Nous avons égalementAu cours de ce siècle, Bouddha a envoyé des robots pour propager le bouddhismeDans un article, la tendance à l’intégration du bouddhisme et de la technologie a été rapportée. Le robot Xian'er, la machine Guanyin, les perles bouddhistes intelligentes, etc. qui ont émergé ces dernières années ont depuis longtemps montré que la technologie a été profondément et harmonieusement intégrée au bouddhisme.

Maître Xianxin, un autre moine bien connu du temple de Longquan et fondateur du camp de méditation informatique, a été interrogé sur la relation entre le bouddhisme et la technologie lors d'une interview.
Il a répondu :La science et la technologie sont la quête de la vérité dans le monde matériel. Le bouddhisme est la vérité du monde intérieur.De nombreuses personnes qui ont mené des explorations scientifiques et technologiques voulaient initialement contribuer à l’humanité, ce qui est cohérent avec la quête de la plus grande compassion du bouddhisme. C’est le point commun entre la science et la technologie et le bouddhisme. "
Références :
Compte WeChat du Petit Moine Xianchao : « La collision et l'intégration de l'intelligence artificielle et de la civilisation chinoise »
Conférence Yunqi 2050 : « Maître Xiandu – Pratique technologique du temple Longquan »
Outil de ponctuation automatique du temple de Longquan :http://gj.cool/gjcool/index