용천사 선초 스님: AI를 활용한 고대 경전 식별, 분류 및 번역

가장 강력한 과학 연구 사원인 룽취안사의 셴차오 스님은 최근 몇 년 동안 인공지능과 고대 문서의 통합에 대한 연구를 해왔습니다. 현재 그가 이끄는 "삼장법" 팀은 AI 자동 구두점, 문학 및 모국어 번역, 고대 문자 인식 등의 기술적 기술을 구현하고 있습니다.
베이징 교외의 봉황령 기슭에 위치한 용천사는 중국에서, 나아가 세계에서 가장 강력한 과학 연구 역량을 갖춘 불교 사찰로 여겨질 수 있습니다.
쉐청 스승님의 말씀을 바탕으로 "불교는 고대이지만 불교는 현대적이다"이는 롱취안사의 승려들이 과학 연구에 참여하고 코드를 작성하고, 불교와 새로운 기술을 결합하고, 프로젝트를 대중화하고 국제화하도록 장려했습니다. 그 결과는 무궁무진하며, 그 제품은 자주 검색되었고 외부 세계의 지속적인 관심을 끌었습니다.
최근 용천사의 현초스님은 국내 기술 컨퍼런스에 참석하여 인공지능을 활용해 대장경을 정리하고 교정하는 기술적 실무 사례를 공유했습니다.
불교 AI의 탄생: 불교 경전을 더 쉽게 읽을 수 있게 하다
셴차오 선생님은 원래 베이징 대학 물리학부의 응집물질물리학 석사 출신입니다. 그는 2007년 베이징대학을 졸업하고 2008년 롱취안사에서 불교에 귀의했습니다. 그 후 그는 롱취안대장경의 편집 및 개정과 불교 교리 연구에 헌신해 왔습니다.
2016년 알파고가 이세돌을 상대로 역사적인 승리를 거두자, 샤오샹 사범은 AI에 관심을 갖게 되었습니다. 그때부터 그는 자신이 연구하던 OCR 기술과 자동 구두점 기능에 AI를 결합하려고 시도하기 시작했습니다.

부처님의 고유 AI가 고대 경전의 문제점을 해결합니다.
롱취안사에서 편찬한 대장경은 불교 경전의 모음집으로 대장경이라고도 합니다. 2천 년이 넘는 중국 불교 역사 동안 역대 왕조들이 삼장경을 번역, 보완, 개정해 왔습니다.
오늘날까지 전해지는 버전이 수십 개에 달하는데, 가장 짧은 버전은 5,000개가 넘는 단어로 이루어져 있고 가장 긴 버전은 1억 2,000만 단어가 넘습니다.

2012년에 롱취안사에서 대장경 편찬이 시작되었습니다.이 프로젝트는 완료되기까지 무려 10년이 걸릴 예정이다. 고대 서적을 분류하는 전통적인 방법은 주로 버전 교정, 대조, 구두점 확인 등을 포함합니다.이러한 단계를 거치면 현대 독자들이 모호하고 익숙하지 않은 성경을 최대한 잘 이해할 수 있게 됩니다.
3년 후, 용천사는 '남산팔대작(南山八大作)'을 편찬하여 출판했습니다. 이듬해에는 롱취안사 불교경전실이 설립되어 인공지능 기술의 활용 방안을 모색하고 딥러닝을 기반으로 한 단어 인식 엔진을 개발하는 것을 목표로 했습니다.
2017년 용천사는 인공지능 및 정보기술 센터를 설립하고, 다양한 버전의 대장경을 식별할 수 있는 전주 인식 엔진을 개발했으며, 대장경 버전인 『육십권화엄경』의 디지털화에 성공했습니다.
셴차오 스님은 현재 불교 경전 사무국장으로 재직 중이며, 대장경 편찬을 담당하고 있습니다.
자동 구두점 인식: OCR + 딥러닝
최근 몇 년 동안, 사람들이 고대 중국 고전을 읽는 데 대한 문턱을 낮추고 학자들의 업무 효율성을 높이기 위해 Xianchao 마스터 팀은딥러닝과 OCR 등의 기술을 활용해 대장경을 해석하는 전통적인 방식을 바꾸면서 놀라운 결과를 얻었습니다.

Xianchao 마스터가 소개했습니다.자동 구두점이란 인간의 개입 없이 알고리즘을 기반으로 고대 텍스트에 현대 중국어 구두점을 자동으로 표시하는 기술을 말합니다.이는 주로 현대 독자들의 편의를 위한 것입니다.
이전에도 인공지능을 이용해 고대 중국어 문헌에 구두점을 추가하는 것에 대한 관련 연구가 있었습니다. 하지만 선사께서는 그 전에는 기본적으로 고대 중국 문헌에 마침표를 찍는 것에 불과했다고 말씀하셨습니다. 그는 이러한 접근 방식이 "더 보수적이고 학문적"이라고 믿는다.
그의 팀은 자동 구두점에 딥러닝을 적용했습니다.고대 텍스트에 마침표, 쉼표, 물음표, 느낌표, 콜론, 세미콜론, 콜론 등의 구두점을 더 높은 정확도로 추가할 수 있습니다.검증 결과, 그들이 개발한 Transformer 라벨링 결과는 인간의 라벨링 결과와 "거의 구별할 수 없을 정도"로 나타났습니다.
RNN+LSTM+ResNet은 전반적인 효과를 개선했습니다.
NLP 분야에서 자동 구두점은 간단한 시퀀스 레이블링 문제입니다. 이러한 유형의 문제를 해결하는 표준적인 접근 방식은 순환 신경망(RNN)을 사용하는 것입니다.
RNN의 성능을 향상시키기 위해 이를 기반으로 양방향 RNN이 개발되었습니다. 즉, 각 순간의 출력은 이전 순간의 모든 입력뿐만 아니라 이전 및 이후의 입력에도 따라 달라집니다. 이어서 시안차오 마스터 팀에서 LSTM 방법을 소개했습니다.
하지만 이러한 기술을 기반으로 지금까지 구현된 자동 구두점 기능은 아직 만족스럽지 않습니다. Xianchao 마스터 팀에서 예상치 못한 결과를 얻을 수 있었던 이유는 이전 연구를 바탕으로 ResNet 잔여 네트워크를 도입했기 때문입니다.

샤오잔 선생님은 이전 신경망은 최대 12~20개 층으로 구성된 구조였다고 설명하셨습니다. 레이어의 수가 늘어나면 학습 결과가 수렴하기 어려워질 수 있습니다.잔여 네트워크는 수백 개, 심지어 수천 개의 레이어를 가질 수 있습니다. 네트워크가 깊어질수록 더 깊은 의미 정보를 포착하는 데 도움이 되며, 이것이 큰 성공의 열쇠입니다.
또한 해당 팀은 합성곱 신경망(CNN)을 사용하려고 시도했습니다. 최종 결과는 잔여 네트워크의 평균 구두점 정확도가 합성 신경망보다 약 20-30% 더 높다는 것이었습니다.
AI 자동 구두점 도구는 얼마나 효율적일까요?셴차오 스승님은 약 2만 단어로 구성된 고대 중국 문헌의 구두점 처리를 하루 만에 완료하셨습니다. 고대 문헌의 구두점에 대한 일반적인 보수 수준인 천 단어당 15위안을 고려하면, 하루에 300위안의 경제적 가치를 창출하는 것과 같습니다.자동 구두점의 정확도를 60% 기반으로만 계산하더라도 하루에 180위안의 가치가 발생합니다.

현재, 셴차오 스승님 팀의 훈련 데이터는 대부분 불교 경전에서 가져온 것이므로, 자동 구두점 기능은 불교 경전에 구두점을 찍는 데 더 적합합니다. 그러나 그는 이렇게 말했다.앞으로 이 기술은 고전학, 역사학, 잡학 등 더 많은 분야의 고문헌을 편찬하는 데에도 활용될 것이며, 이를 통해 학자들은 기계적이고 반복적인 노동으로부터 해방될 것입니다.
미래에는 고서 교정의 작업 모드가 다음과 같이 바뀔 것으로 예상된다. AI가 먼저 문장을 나누고 구두점을 추가한다. 이후 전문 학자들이 교정과 수정을 진행할 것입니다.
시안차오 마스터의 팀은 2018년에 이 자동 구두점 서비스를 온라인 오픈 소스로 공개했습니다.GuJiCool(http://gj.cool)을 방문하여 체험해 보시고 무료 API 호출을 신청하세요.
인식 및 번역: AI는 불교 경전 중국어 번역의 보물 창고가 됩니다.
셴차오 마스터는 자동 구두점 기능 외에도 고대 서적 연구의 여러 측면에 AI를 적용합니다.
문학 및 구어 연: 정렬 및 번역
문학과 속어 연은 고대 중국어를 현대 중국어로 정렬하고 번역한 것입니다. AI 문학 및 속어 연을 실현하기 위해, 셴차오 스승님은 먼저 문학 및 속어 텍스트를 정렬한 코퍼스를 구축한 다음 정렬 알고리즘을 설계하였는데, 이는 매우 좋은 결과를 얻었습니다.유사성과 차이점이라는 두 가지 독립적인 지표를 바탕으로, 잘못 정렬된 문장을 매우 쉽게 찾을 수 있습니다.

대장경에는 전문적인 용어가 많이 들어 있고, 과거 왕조의 번역본이 많아 복잡하기 때문에 고대 중국 전문가가 완벽하게 숙지하기는 어렵습니다. 대장경의 총 글자 수는 10억 자에 이릅니다. 우리가 제한된 수의 전문가에게만 의존한다면, 작업량은 엄청나게 늘어날 것입니다. 따라서 AI의 개입으로 인해 전문가들에게 많은 업무 부담이 분산되었습니다.
딥러닝 기반 OCR, 고대 문자 인식
현재 시중에 나와 있는 OCR 소프트웨어는 모두 인쇄된 텍스트에만 적용되기 때문에, 오래된 책이나 문서의 글꼴을 잘 인식하지 못합니다.
셴차오 마스터와 그의 팀은 CNN+LSTM+CTC 프레임워크를 기반으로 새로운 OCR 엔진을 개발했습니다. 그런 다음, 대장경(고려 편)의 7만 개 이상의 전체 이미지와 168만 개의 텍스트 줄 이미지로 구성된 데이터 세트를 기반으로 학습을 수행했습니다.

궁극적으로, 그들이 개발한 OCR 방식은 고대 서적에 대한 단일 단어 인식, 단일 열 인식, 반자동 다중 열 인식이 가능하며, 다양한 유형의 고대 서적 디지털화를 효과적으로 완료할 수 있습니다.

셴차오 스승님께서도 자신의 위챗 공개 계정 "셴차오 소승"(위챗 ID: xianchaofashi)에 글을 올리셨습니다.이 게시물에서 저는 불교에 대한 더 많은 프로젝트 실행과 통찰력을 공유했습니다. 관심 있는 친구들은 팔로우하면 됩니다.
기술과 불교: 연민의 다른 외현화
불교와 기술은 크게 다르지 않습니다.
우리는 또한이 세기에 부처님은 로봇을 보내 불교를 전파했습니다.한 기사에서는 불교와 기술의 융합 추세를 보도했습니다. 최근 몇 년 사이에 등장한 셴얼 로봇, 기계 관음, 스마트 불교 염주 등은 기술이 불교에 깊고 조화롭게 융합되었다는 것을 오래전부터 보여주었습니다.

롱취안사의 또 다른 유명한 승려이자 IT 명상 캠프의 창시자인 셴신 스님은 인터뷰에서 불교와 기술의 관계에 대해 질문을 받았습니다.
그는 이렇게 대답했습니다.과학과 기술은 물질세계에서 진실을 추구하는 것입니다. 불교는 내면세계의 진실입니다.과학과 기술에 대한 탐구를 시작한 많은 사람들은 본래 인류에 기여하고자 했으며, 이는 가장 자비로운 것을 추구하는 불교의 가르침과 일맥상통합니다. 이것이 과학과 기술과 불교의 공통점입니다. "
참고문헌:
셴차오 소승 위챗 계정: "인공지능과 중국 문명의 충돌과 융합"
2050년 Yunqi 회의: "Xiandu 스승 - Longquan Temple의 기술 실습"
용천사 자동 문장 부호 도구:http://gj.cool/gjcool/index