HyperAI

Meister Xianchao Vom Longquan-Tempel: Mithilfe Von KI Alte Schriften Identifizieren, Segmentieren Und Übersetzen

vor 4 Jahren
Große Fabrikangelegenheiten
Schlagzeilen
Wahrer Klatsch
神经小兮
特色图像

Meister Xianchao vom Longquan-Tempel, dem mächtigsten wissenschaftlichen Forschungstempel, hat in den letzten Jahren die Integration künstlicher Intelligenz und alter Dokumente studiert. Derzeit hat das von ihm geleitete „Tripitaka“-Team technische Verfahren wie die automatische Zeichensetzung durch KI, literarische und volkssprachliche Übersetzungen sowie die Erkennung alter Texte implementiert.

Der Longquan-Tempel am Fuße des Fenghuangling in einem Vorort von Peking gilt als der buddhistische Tempel mit den stärksten wissenschaftlichen Forschungskapazitäten des Landes und sogar der Welt.

Basierend auf einem Ausspruch von Meister Xuecheng „Der Buddhismus ist alt, aber die Buddhisten sind modern“, das die Mönche im Longquan-Tempel dazu ermutigte, wissenschaftliche Forschung zu betreiben, Code zu schreiben, Buddhismus mit neuen Technologien zu verbinden und die Projekte populär zu machen und zu internationalisieren. Die Ergebnisse sind endlos, die Produkte wurden häufig gesucht und erregten kontinuierlich die Aufmerksamkeit der Außenwelt.

Vor Kurzem nahm Meister Xianchao vom Longquan-Tempel an einer nationalen Technologiekonferenz teil und erläuterte die technischen Praktiken der Nutzung künstlicher Intelligenz zum Organisieren und Korrekturlesen des Tripitaka.

Die Geburt der buddhistischen KI: Buddhistische Schriften leichter lesbar machen

Meister Xianchao war ursprünglich ein Master der Festkörperphysik an der Fakultät für Physik der Peking-Universität. Er schloss 2007 sein Studium an der Peking-Universität ab und konvertierte 2008 im Longquan-Tempel zum Buddhismus. Seitdem widmet er sich der Herausgabe und Überarbeitung des Longquan Tripitaka und dem Studium der buddhistischen Lehren.

Im Jahr 2016 lenkte der historische Sieg von AlphaGo über Lee Sedol die Aufmerksamkeit von Meister Xianchao auf die KI. Von da an versuchte er, KI mit der OCR-Technologie und der automatischen Zeichensetzung zu kombinieren, die er erforschte.

Der ehrwürdige Xianchao präsentiert seine Forschungsergebnisse auf der Techo Park Developer Conference

  Buddhas native KI löst die Schwachstellen der alten Schriften 

Das vom Longquan-Tempel zusammengestellte und zusammengestellte Tripitaka ist eine Sammlung buddhistischer Schriften, auch bekannt als Tripitaka. Während der mehr als zweitausend Jahre des chinesischen Buddhismus haben aufeinanderfolgende Dynastien das Tripitaka übersetzt, ergänzt und überarbeitet.

Bis heute sind Dutzende von Versionen überliefert, die kürzeste umfasst mehr als 5.000 Wörter und die längste mehr als 120 Millionen Wörter.

An der Überarbeitung der Qianlong-Ausgabe des Tripitaka waren über 60 Beamte, Gelehrte und bedeutende Mönche sowie über 860 Handwerker wie Graveure, Drucker und Buchbinder beteiligt. Die Fertigstellung dauerte sechs Jahre (abgebildet ist der Stich der Qianlong-Ausgabe des Tripitaka).

Im Jahr 2012 begann das Kloster Longquan mit der Zusammenstellung des Tripitaka.Die Fertigstellung des Projekts soll volle zehn Jahre dauern. Denn zu den traditionellen Methoden der Sortierung alter Bücher gehören hauptsächlich das Korrekturlesen der Versionen, die Kollationierung und die Zeichensetzung.Mit diesen Schritten kann sichergestellt werden, dass heutige Leser obskure und unbekannte Schriften bestmöglich verstehen.

Drei Jahre später stellte der Longquan-Tempel die „Acht großen Werke von Nanshan“ zusammen und veröffentlichte sie. Im darauf folgenden Jahr wurde das Buddhist Scripture Office des Longquan-Tempels gegründet, mit dem Ziel, den Einsatz künstlicher Intelligenztechnologie zu erforschen und eine Einzelworterkennungsmaschine auf Basis von Deep Learning zu entwickeln.

Im Jahr 2017 richtete der Longquan-Tempel ein Zentrum für künstliche Intelligenz und Informationstechnologie ein, entwickelte eine Engine zur Erkennung ganzer Spalten, die verschiedene Versionen des Tripitaka identifizieren kann, und digitalisierte erfolgreich die Tripitaka-Version des „Sechzigbändigen Avatamsaka-Sutra“.

Meister Xianchao fungiert derzeit als Direktor des buddhistischen Kanonbüros und ist für die Zusammenstellung des Tripitaka verantwortlich.

  Automatische Zeichensetzung: OCR + Deep Learning 

Um die Hemmschwelle für die Menschen, alte chinesische Klassiker zu lesen, zu senken und die Arbeitseffizienz der Gelehrten zu verbessern, hat das Team von Meister Xianchao in den letzten JahrenDer Einsatz von Technologien wie Deep Learning und OCR zur Änderung der traditionellen Interpretationsweise des Tripitaka hat zu erstaunlichen Ergebnissen geführt.

Im modernen Chinesisch gibt es fast zehn gängige Satzzeichen, wie etwa Punkte, Anführungszeichen und Buchtitelzeichen. Im Altchinesischen gibt es nur Punkte und Kommas, die in den Schriften selten vorkommen und schwer zu lesen sind.

Meister Xianchao stellte vor:Unter automatischer Zeichensetzung versteht man die Technologie zur automatischen Markierung moderner chinesischer Zeichensetzung für alte Texte auf der Grundlage von Algorithmen ohne menschliches Eingreifen.Dies dient hauptsächlich der Bequemlichkeit moderner Leser.

Zuvor gab es bereits entsprechende Studien zum Einsatz künstlicher Intelligenz zum Hinzufügen von Zeichensetzung zu alten chinesischen Texten. Meister Xianchao sagte jedoch, dass es sich dabei im Grunde nur um das Hinzufügen von Punkten zu alten chinesischen Texten gehandelt habe. Er glaubt, dieser Ansatz sei „konservativer und akademischer“.

Sein Team wandte Deep Learning auf die automatische Zeichensetzung an.Sie können Satzzeichen wie Punkt, Komma, Fragezeichen, Ausrufezeichen, Doppelpunkt, Semikolon und Doppelpunkt mit höherer Genauigkeit zu alten Texten hinzufügen.Nach der Überprüfung sind die von ihnen entwickelten Transformer-Kennzeichnungsergebnisse „fast nicht von den Kennzeichnungsergebnissen des Menschen zu unterscheiden“.

 RNN + LSTM + ResNet hat den Gesamteffekt verbessert 

Im Bereich NLP ist die automatische Zeichensetzung ein einfaches Problem der Sequenzkennzeichnung. Der Standardansatz zur Lösung dieser Art von Problemen besteht in der Verwendung eines rekurrierenden neuronalen Netzwerks (RNN).

Um die Leistung von RNN zu verbessern, wurde auf dieser Grundlage ein bidirektionales RNN entwickelt, d. h. die Ausgabe zu jedem Zeitpunkt hängt nicht nur von allen Eingaben im vorherigen Zeitpunkt ab, sondern auch von den vorherigen und nachfolgenden Eingaben. Anschließend stellte das Team von Meister Xianchao die LSTM-Methode vor.

Allerdings ist die bisher auf Basis dieser Technologien erreichte automatische Zeichensetzung noch nicht sehr zufriedenstellend. Der Grund, warum das Team von Meister Xianchao unerwartete Ergebnisse erzielte, liegt darin, dass sie auf der Grundlage der vorherigen Arbeit das ResNet-Restnetzwerk eingeführt haben.

Das Team veröffentlichte 2019 Artikel:„Zusammenstellung des Tripitaka: Wenn KI auf Buddhismus trifft“ mit der Einführung seiner automatischen Interpunktionstechnologie

Meister Xianchao erklärte, dass frühere neuronale Netzwerke Strukturen von höchstens einem Dutzend oder zwanzig Schichten hatten. Würde die Anzahl der Schichten erhöht, ließe sich die Konvergenz der Trainingsergebnisse nicht so leicht erreichen.Das Restnetzwerk kann Hunderte oder sogar Tausende von Schichten umfassen. Tiefere Netzwerke helfen dabei, tiefere semantische Informationen zu erfassen, was der Schlüssel zu ihrem großen Erfolg ist.

Das Team versuchte auch, Convolutional Neural Networks (CNNs) zu verwenden. Das Endergebnis war, dass das Restnetzwerk eine durchschnittliche Interpunktionsgenauigkeit aufwies, die etwa 20-30% höher war als die des Convolutional Neural Network.

Wie effizient ist das KI-Tool zur automatischen Zeichensetzung?Meister Xianchao hat die Zeichensetzung eines alten chinesischen Textes mit etwa 20.000 Wörtern an einem Tag abgeschlossen. Gemäß der allgemeinen Vergütung von 15 Yuan pro tausend Wörter für die Zeichensetzung antiker Texte entspricht dies der Schaffung eines wirtschaftlichen Werts von 300 Yuan an einem Tag.Selbst wenn die Genauigkeit der automatischen Zeichensetzung nur auf Basis von 60% berechnet wird, entsteht dennoch ein Wert von 180 Yuan pro Tag.

Das Team verbessert außerdem ständig das automatische Zeichensetzungstool,Die neueste Generation hat eine Genauigkeit von 93,3%

Da die Trainingsdaten des Teams von Meister Xianchao derzeit größtenteils aus buddhistischen Schriften stammen, ist seine automatische Zeichensetzung besser für die Zeichensetzung buddhistischer Texte geeignet. Er sagte jedoch:In Zukunft wird diese Technologie auch bei der Zusammenstellung antiker Dokumente in weiteren Bereichen wie der klassischen Altertumswissenschaft, der Geschichte und verschiedenen Werken zum Einsatz kommen und so den Wissenschaftlern mechanische und monotone Arbeit ersparen.

In Zukunft wird sich die Arbeitsweise beim Korrekturlesen alter Bücher voraussichtlich folgendermaßen ändern: Die KI wird zunächst Sätze umbrechen und Satzzeichen hinzufügen; Das Korrekturlesen und die Überarbeitung werden später von professionellen Wissenschaftlern durchgeführt.

Das Team von Meister Xianchao hat diesen Onlinedienst zur automatischen Zeichensetzung im Jahr 2018 als Open Source veröffentlicht.Sie können GuJiCool (http://gj.cool) für eine Testversion besuchen und kostenlose API-Aufrufe beantragen.

Erkennen und Übersetzen: KI wird zur Schatztruhe für die chinesische Übersetzung buddhistischer Schriften

Neben der automatischen Zeichensetzung wendet Meister Xianchao KI auch auf viele Aspekte der Erforschung alter Bücher an.

Literarische und volkssprachliche Couplets: Ausrichtung und Übersetzung 

Literarische und volkssprachliche Verse sind die Angleichung und Übersetzung des Altchinesischen ins moderne Chinesisch. Um KI-basierte literarische und volkstümliche Verspaare zu realisieren, erstellte Meister Xianchao zunächst ein Korpus ausgerichteter literarischer und volkstümlicher Texte und entwarf dann einen Ausrichtungsalgorithmus, der sehr gute Ergebnisse erzielte.Anhand der beiden unabhängigen Indikatoren für Ähnlichkeit und Unterschied können die falsch angeordneten Sätze sehr leicht lokalisiert werden.

Übersetzen Sie das Tripitaka und richten Sie die einzelnen Sätze aus,Hilft beim manuellen Nachabruf und Korrekturlesen

Da das Tripitaka viele Fachbegriffe enthält und der Korpus der übersetzten Werke aus vergangenen Dynastien komplex ist, können Fachleute des Altchinesischen es nicht beherrschen. Die Gesamtzahl der Zeichen im Tripitaka geht in die Milliarden. Wenn wir uns nur auf eine begrenzte Zahl von Experten verlassen, wird der Arbeitsaufwand enorm sein. Daher hat der Einsatz von KI den Experten einen großen Teil ihrer Arbeitslast abgenommen.

  OCR basierend auf Deep Learning zur Erkennung antiker Texte 

Derzeit ist die OCR-Software auf dem Markt ausschließlich auf gedruckten Text ausgerichtet und kann daher die Schriftarten in alten Büchern und Dokumenten nicht gut erkennen.

Meister Xianchao und sein Team haben eine neue OCR-Engine basierend auf dem CNN+LSTM+CTC-Framework entwickelt. Anschließend wurde das Training anhand eines Datensatzes mit mehr als 70.000 Vollbildern und 1,68 Millionen Textzeilenbildern aus dem Tripitaka (Koryo-Ausgabe) durchgeführt.

Präzise Textsegmentierung basierend auf schwach überwachtem Lernen

Letztendlich ist die von ihnen entwickelte OCR-Methode in der Lage, Einzelworterkennung, Einzelspaltenerkennung und halbautomatische Mehrspaltenerkennung bei alten Büchern durchzuführen und so die Digitalisierung verschiedener Arten alter Bücher effektiv abzuschließen.

OCR-Software erkennt antike Texte und digitalisiert sie

Meister Xianchao hat auch auf seinem öffentlichen WeChat-Konto „Xianchao Little Monk“ (WeChat-ID: xianchaofashi) gepostet.In dem Beitrag habe ich weitere Projektpraktiken und Einblicke in den Buddhismus geteilt. Interessierte Freunde können es verfolgen.

Technologie und Buddhismus: Unterschiedliche Äußerungen von Mitgefühl

Buddhismus und Technologie liegen nicht weit auseinander.

Wir haben auchIn diesem Jahrhundert schickte Buddha Roboter, um den Buddhismus zu verbreitenIn einem Artikel wurde über den Trend zur Integration von Buddhismus und Technologie berichtet. Der Xian'er-Roboter, die Guanyin-Maschine, die intelligenten buddhistischen Perlen usw., die in den letzten Jahren auf den Markt gekommen sind, haben schon lange gezeigt, dass die Technologie tief und harmonisch in den Buddhismus integriert ist.

Die Verschmelzung von Wissenschaft und Technologie mit dem Buddhismus hat viele hervorragende Werke hervorgebracht, dieNotiz

Meister Xianxin, ein weiterer bekannter Mönch des Longquan-Tempels und Gründer des IT-Meditationscamps, wurde in einem Interview zur Beziehung zwischen Buddhismus und Technologie befragt.

Er antwortete:Wissenschaft und Technologie sind die Suche nach der Wahrheit in der materiellen Welt. Der Buddhismus ist die Wahrheit der inneren Welt.Viele Menschen, die wissenschaftliche und technologische Entdeckungen machten, wollten ursprünglich einen Beitrag zur Menschheit leisten, was mit dem Streben des Buddhismus nach dem größtmöglichen Mitgefühl übereinstimmt. Dies ist die Gemeinsamkeit zwischen Wissenschaft und Technologie und dem Buddhismus. "

Quellen:

Xianchao Little Monk WeChat-Konto: „Die Kollision und Integration von künstlicher Intelligenz und chinesischer Zivilisation“

Yunqi-Konferenz 2050: „Meister Xiandu – Technologische Praxis des Longquan-Tempels“

Automatisches Zeichensetzungstool des Longquan-Tempels:http://gj.cool/gjcool/index