HyperAI超神経

龍泉寺の仙超師: AI を使用して古代の書籍や経典を識別、セグメント化、翻訳

4年前
大きな工場の事務
見出し
本当のゴシップ
神经小兮
特色图像

最も強力な科学研究寺院である龍泉寺の仙超師は、近年、人工知能と古書の統合を研究しており、現在、大蔵経チームを率いて、AI 自動句読点、白翻訳、古書のテキスト認識、および古書のテキスト認識を実装しています。他のテクノロジーの実践。

北京郊外の鳳皇嶺の麓にある龍泉寺は、国内、さらには世界で最も科学研究能力が高い仏教寺院とみなされている。

当時の学成先生の言葉です。 「仏教は古代のものだが、仏教徒は現代的なものである」、龍泉寺の著名な僧侶たちに、科学研究に従事してコードを書き、仏教と新技術を組み合わせ、プロジェクトの普及と国際化を奨励しました。結果は安定しており、頻繁に検索されており、外部の世界から注目を集め続けています。

最近、龍泉寺の仙超老師は国内の技術会議に参加し、人工知能を使って大蔵経を整理・照合する技術的実践を共有した。

仏教AIの誕生:経典を読みやすくする

仙超師はもともと北京大学物理学部で物性物理学の修士号を取得し、2007 年に北京大学を卒業し、2008 年に龍泉寺で仏教に改宗しました。それ以来、龍泉大蔵経の編纂に尽力してきました。そして仏教の教義の研究。

2016 年、AlphaGo がイ・セドルに歴史的な勝利を収めたことで、Xianchao マスターは AI に注目するようになりました。それ以来、彼は研究している OCR 技術や自動句読点と AI を組み合わせる試みを始めました。

XianchaoマスターがTecho Park開発者カンファレンスで研究成果を紹介

  仏陀のネイティブ AI が古代の本や経典の問題点を解決 

龍泉寺が編纂・編集している『大蔵経』は、全経とも呼ばれる仏教の古典を集めたものです。中国仏教の 2000 年以上の歴史の中で、歴代の王朝は大蔵経を翻訳し、補足し、改訂してきました。

今日までに、5,000 語以上から 1 億 2,000 万語に至るまで、数十のバージョンが流通しています。

『乾隆版大蔵経』の改訂には、役人、学者、高僧などが60名以上、彫刻、印刷、製本などの職人が860名以上参加し、完成までに6年の歳月を要した(写真は彫刻の様子)。 『乾隆版大蔵経』)

龍泉寺は 2012 年に大蔵経の編纂を開始した。完成までに丸10年かかる予定だった。なぜなら、古書を整理する伝統的な方法には主に版校正、照合、句読点が含まれるからです。, これらの手順により、現代の読者が難解でなじみのない聖典を可能な限り理解できるようになります。

3 年後の 2006 年、龍泉寺は再び「南山八大部」を編纂、出版し、人工知能技術の利用を検討し、深層学習に基づいた単語認識エンジンを開発するために龍泉寺経典所が設立されました。

2017年、龍泉寺は人工知能・情報技術センターを設立し、さまざまな版の大蔵経を識別できる全体認識エンジンを開発し、大蔵経版『六十観音』のデジタル化に成功した。

献超師は現在大蔵経所長を務め、大蔵経の編纂に責任を負っている。

  自動句読点: OCR + ディープラーニング 

人々が古代中国の古典を読む敷居を下げ、学者の仕事の効率を向上させるために、仙超老師のチームは近年、ディープラーニングやOCRなどのテクノロジーを利用して、大蔵経を解釈する伝統的な方法を変え、非常に驚くべき成果を上げました。

現代中国語では、ピリオド、引用符、書名記号など、一般的に使用される句読点は 10 種類近くありますが、古代中国語にはピリオドとポーズしかなく、経典にはほとんど登場せず、読みにくいです。

師範超が紹介した、いわゆる自動句読点とは、手動介入を必要とせず、アルゴリズムに基づいて古文に現代中国語の句読点を自動的に付ける技術を指します。これは主に現代の読者の便宜を図るためのものです。

これまでにも、人工知能が古文に句読点を追加するという関連研究があったが、以前は基本的に古文にピリオドを追加するだけだった、と同氏はこのアプローチが「より保守的で学術的」だと考えていたと述べた。

そして彼のチームは深層学習を自動句読点に適用しました。ピリオド、コンマ、疑問符、感嘆符、コロン、セミコロン、ポーズを句読点として古文書により正確に追加できます。検証の結果、彼らが開発した Transformer アノテーションの結果は、人間によるアノテーションの結果と「ほとんど区別がつかない」ことがわかりました。

 RNN+LSTM+ResNetの効果が総合的に向上 

NLP の分野における自動句読点は、単純なシーケンスのラベル付けの問題です。この種の問題を解決する標準的な方法は、リカレント ニューラル ネットワーク (RNN) を使用することです。

RNN のパフォーマンスを向上させるために、これに基づいて双方向 RNN が開発されました。つまり、各瞬間の出力は、前の瞬間のすべての入力に依存するだけでなく、前後の入力にも依存します。その後、マスター Xianchao のチームは LSTM メソッドを導入しました。

しかし、これらの技術に基づく自動句読点の効果はまだあまり満足のいくものではありません。 Master Xianchao チームが予想外の結果を達成した理由は、以前の結果に基づいて ResNet 残差ネットワーク (Residual network) を導入したためです。

チームは2019年に論文を発表しました:「大蔵経を編纂:AIと仏教が出会うとき」では自動句読点技術を紹介

Xianchao マスターは、以前はニューラル ネットワークの構造が 10 層以上、多くても 20 層以上あった場合、学習結果が収束するのは容易ではないと説明しました。残留ネットワークには、多くの場合、数百、さらには数千の層があります。より深いネットワークは、より深い意味論的な情報を取得するのに役立ち、これが大きな成功の鍵となります。

研究チームは畳み込みニューラル ネットワーク (CNN) の使用も試み、最終的な結果として、残差ネットワークの句読点精度は畳み込みニューラル ネットワークよりも平均で約 20-30% 高いことがわかりました。

AI 自動句読点ツールはどのくらい効率的ですか?Xianchao 老師は 1 日で約 20,000 語の古文書の句読点を完成させました。古書の句読点の一般的な報酬水準である 1,000 語あたり 15 元によれば、これは 1 日で 300 元の経済価値を生み出すことに相当します。自動句読点の精度が 60% に基づいて計算されただけであっても、毎日 180 元の値が生成されます。

チームはまた、自動句読点ツールを継続的にアップグレードしています。最新世代の現在の精度は93.3%に達します

現在、Xianchao マスターのチームのトレーニング データは主に仏教経典から取得されているため、その自動句読点は仏教の古典に句読点を付けるのにより適しています。しかし、彼はこう言いました。将来的には、この技術は古典や歴史の収集など、より多くの分野の古文書の収集にも使用され、学者は機械的で反復的な作業から解放されるでしょう。

将来の古書の校正作業モデルは、まずAIが文章を分割し、句読点を追加し、その後の校正と修正を専門の学者が行うという形に変更されることが期待されている。

マスター・シアンチャオのチームは、2018 年にこの自動句読点オンライン サービスを開始しました。Ancient Books・Cool (http://gj.cool) にアクセスして試すことができ、無料の API コールを申し込むこともできます。

認識と翻訳:AIは仏典の中国語翻訳の宝箱になる

自動句読点に加えて、Xianchao マスターは古書の研究のさまざまな側面にも AI を適用しています。

文学対句: 整列と翻訳 

文学対句、つまり古代中国語を現代中国語に並べて翻訳したもの。 AI のテキストから単語への対句を実現するために、Xianchao マスターはまずテキストから単語への整列コーパスを構築し、次に整列アルゴリズムを設計し、良好な結果を達成しました。類似性と相違点の 2 つの独立した指標に基づいて、位置ずれした文を非常に簡単に見つけることができます。

大蔵経を翻訳し、個々の文を分離して整列させる手動による事後検索と校正に役立つ

大蔵経は専門用語が多く、過去の王朝の翻訳資料も複雑なため、古文学関係の専攻では解決できません。大蔵経には何億語もの文字が含まれており、限られた専門家だけに頼ると作業量が膨大になるため、AIの介入により専門家の負担が大きくなります。

  深層学習に基づいたOCRで古書の文字を認識 

現在市販されているOCRソフトは活字フォントのみを対象としているため、古い書籍や文書のフォントをうまく認識することができません。

Master Xianchao と彼のチームは、CNN+LSTM+CTC フレームワークに基づいた新しい OCR エンジンを開発しました。そして、『大蔵経(韓国語版)』の7万枚以上の全体写真と168万行の文字行画像のデータセットに基づいて学習させた。

弱教師学習に基づいた正確なテキストセグメンテーション

最終的に、同社が開発したOCR方法は、古書の単一文字認識、単一列認識、および半自動複数列認識を実行でき、さまざまな古書の電子作業を効率的に完了できます。

OCR ソフトウェアは古文書を認識し、デジタル化します。

Xianchao マスターも公開アカウント「Xianchaofashi」を使用しています (WeChat ID: xianchaofashi)、仏教の学習に関するより多くのプロジェクトの実践と洞察が共有され、興味のある友人がフォローできます。

テクノロジーと仏教:慈悲を核としたさまざまな外在化

仏教とテクノロジーはそれほど遠く離れたものではありません。

私たちもそうでした「今世紀、仏陀は仏教を広めるためにロボットを送り込んだ」ある記事では、仏教とテクノロジーの統合の傾向が報告されており、近年、西安ロボット、機械観音、スマートビーズなどの出現により、テクノロジーが仏教に深く調和して統合できることがすでに示されています。

テクノロジーと仏教を融合させた優れた作品が数多く生まれ、注目を集めている。注記

龍泉寺のもう一人の著名な僧侶であり、IT禅キャンプの創設者でもある仙心老師は、インタビューで仏教とテクノロジーの関係について尋ねられた。

彼はこう答えた。」テクノロジーは物質世界における真実の追求です。仏教は内なる世界の真実です。科学技術の探求をする人の多くは、もともと人類に貢献したいという思いを持っており、最も慈悲深いものとして仏教を追求している。これがテクノロジーと仏教の共通点である。 」

参考文献:

Xian Chao Little Monk 公アカウント: 「人工知能と中国文明の衝突と融合」

2050年雲斉会議:「仙都老師 - 龍泉寺の科学技術実践」

龍泉寺自動句読点ツール:http://gj.cool/gjcool/index