ACL 2024에 선정되었습니다! 화중과학기술대학교, 오라클 뼈 비문 해독에 최적화된 조건부 확산 모델 출시

문자는 문명의 상징이며, 국가를 나타내는 가장 뚜렷한 표시입니다. 갑골문(OBS)은 우리나라에서 가장 오래되고 체계적인 문자로, 중화민족의 문화와 문명을 담고 있습니다. 1899년 한 학자가 우연히 한약방에서 갑골문이 새겨진 거북이 등껍질을 발견한 이후로 갑골문에 대한 연구는 학계에서 뜨거운 화제가 되었습니다.
갑골문에 대한 모든 연구에서 가장 핵심적인 문제는 식별과 해석입니다. 하지만 지금까지 발견된 4,500여 개의 갑골문자 가운데 아직 인식되지 않은 문자가 3,000여 개나 남아 있어 갑골문자 연구는 돌파구가 없는 병목 현상에 접어들었습니다.
AI 기술의 발전으로 현대 기술을 사용하여 이 고대 언어를 이해함으로써 연구자들은 새로운 탐구 방법을 얻게 되었습니다. 그러나 기존의 연구 방법은 주로 해독된 갑골문에 대한 지식과 이해에 기반을 두고 있었습니다.비디지털 텍스트, 심각하게 손상된 샘플, 누락된 코퍼스 등 여러 문제가 있는 알려지지 않은 단어를 해독하는 데 AI를 활용하는 방법아직은 탐험해야 할 새로운 분야입니다.
이에 화중과학기술대학교 백상(Bai Xiang)과 류율량(Liu Yuliang) 연구팀은 아델레이드대학교, 안양사범대학교, 남중국이공대학교와 공동으로 이미지 기반 생성 모델을 활용해오라클 본 문자 해독을 위해 최적화된 조건부 확산 모델 오라클 본 문자 해독(OBSD)이 훈련되었습니다.이 모델은 보이지 않는 갑골문의 범주를 조건부 입력으로 사용하여 해당 현대 중국 문자 이미지를 생성하며, 자연어 처리에서는 해결하기 어려운 고대 문자 인식 작업에 대한 새로운 접근 방식을 제공합니다.
"확산 모델을 통한 오라클 본어 해독"이라는 제목의 관련 연구가 ACL 2024 본 회의에서 수락되었습니다.
연구 하이라이트:
* 이미지 생성 기술을 사용하여 고대 텍스트 인식 작업에 대한 새로운 접근 방식 제공
* OBSD는 로컬 분석 샘플링 기술을 사용하여 복잡한 문자 패턴을 구별하고 해석하는 모델의 능력을 향상시킵니다.
* 포괄적인 절제 연구 및 벤치마크 테스트를 통해 디코딩에서 OSBD의 효율성을 입증합니다.

서류 주소:
https://doi.org/10.48550/arXiv.2406.00684
오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.
https://github.com/hyperai/awesome-ai4s
데이터 세트: Oracle의 가장 큰 저장소를 사용하고 OCR 기술을 벤치마크로 사용
제안된 OSBD 모델을 훈련하고 평가하려면본 연구에서는 HUST-OBS 데이터 세트와 EVOBC 데이터 세트를 선택했습니다.이곳은 71,698개의 이미지에 묘사된 1,590개의 다양한 문자를 담고 있는 가장 큰 갑골문 보관소 중 하나입니다.
알려지지 않은 갑골문을 해독하려면 일반적으로 보다 포괄적인 전문가 검증이 필요하다는 점을 감안할 때, 이 연구에서는 해독된 텍스트만을 테스트 세트로 사용하여 전체 평가 과정을 단순화했습니다. 더 중요한 점은, 이 연구에서는 테스트 세트에서 선택된 문자 범주를 훈련 세트에서 특별히 제외하여 모델을 사용하여 이전에 처리된 적이 없는 문자를 해독할 수 있도록 했다는 점입니다. 데이터 세트는 9:1의 비율로 훈련 세트와 테스트 세트로 나뉘어져 있어 평가를 위한 신뢰할 수 있는 프레임워크를 제공합니다.
또한 OSBD 모델은 이미지 생성 관점에서 오라클 해독을 수행하지만 SSIM과 같은 기존 이미지 생성 지표는 이 작업에 적합하지 않습니다. 따라서 본 연구에서는 복호화의 성공 여부를 판단하기 위한 보다 객관적인 척도로 OCR 기술을 채택했습니다. 구체적으로 연구진은 88,899개의 현대 중국어 문자 범주를 포함하는 대규모 데이터 세트에 대해 특별히 훈련된 ResNet-101 백본 네트워크가 있는 간단한 분류기를 사용하여 OBS-OCR 도구를 맞춤화하여 모델의 출력을 평가했습니다.
결과는 다음과 같습니다 맞춤형 OCR 도구는 99.87%의 인식 정확도를 달성했습니다.해독 결과의 신뢰성이 입증되었습니다. 동시에 이 연구에서는 추가 평가를 위해 오픈소스 중국어 OCR 도구인 PaddleOCR 1을 널리 소개했습니다. 이 이중 OCR 방식은 오라클 본을 해독하는 모델의 효율성을 강력하게 보장합니다.
조건부 확산 모델을 기반으로 OBSD 모델을 재구성합니다.
본 연구에서는 훈련 세트를 S = {(si, ci) | si는 오라클 인스턴스이고, ci∈C}, 즉, 오라클 인스턴스를 알려진 범주 C에 속하는 현대 중국어 문자 집합과 일치시키고 기존 일치 항목이 누락된 곳에 새로운 문자 형태를 제안합니다. 이를 달성하기 위해,본 연구는 확산모형을 토대로 갑골문자 이미지 X를 현대 중국어로 변환한다.
아래 그림과 같이, 모델은 두 단계로 나뉩니다.

초기 단계(노이징)에서는연구진은 현대 한자 이미지 X0에 노이즈를 도입하고 제어 가능한 마르코프 연쇄 과정을 사용하여 이를 순수 노이즈와 유사한 상태로 전환하여 궁극적으로 가우시안 분포 N(0, I)을 형성했습니다.
잡음 제거 단계에서는연구진은 U-Net 아키텍처를 사용하여 모델 fθ를 훈련시켜 노이즈 e를 예측하고 이미지를 복원했으며 et ∼ N(0, I)를 사용하여 무작위성을 도입하여 모델 생성 결과의 다양성을 향상시켰습니다. 최종 디코딩 결과는 잡음이 제거된 이미지 X0입니다.
이러한 기반 위에 OBSD 모델은 초기 복호화 단계와 제로샷 정제 단계를 통합하여 복호화 정확도를 개선하였으며, 이는 아래 그림과 같습니다.

먼저, 오라클 이미지 X를 조건부 확산시켜 초기 이미지 X0에 근접하게 한 다음, 제로샷 학습 방법을 통해 개선하고, Xref를 참조로 사용하여 구조를 수정하고 향상시킵니다. 개선 과정에서 텍스트 구조에 대한 통찰력을 활용하여 마침내 현대 중국어 문자에 해당하는 텍스트 결과 XF가 생성되었습니다.
고대 문자와 현대 중국 문자를 연결하는 모델의 능력을 향상시키기 위해 LSS 개념 도입
하지만 실제 적용 사례에서 이런 방식으로 학습한 모델은 해당 현대 중국어 문자를 정확하게 생성할 수 없고, 대신 아래 그림에서 볼 수 있듯이 대량의 무작위 조각을 기반으로 일종의 무의미한 문자를 형성합니다.

연구진은 이러한 결과의 원인은 확산 모형이 주로 자연스러운 이미지를 생성하도록 설계되었지만, 갑골문을 해독하는 과정에서 갑골문과 현대 중국 문자의 구조에 큰 차이가 있기 때문이라고 추측합니다.이로 인해 표준 조건 확산 모델로는 대상 현대 중국어 문자를 정확하게 재구성하는 것이 불가능합니다.

이러한 과제를 해결하기 위해본 연구에서는 국소 구조 샘플링(LSS)이라는 개념을 소개했습니다.확산 모형이 갑골문의 국소적 부수 구조를 현대 중국 문자에 대응하는 방식으로 매핑하는 방법을 학습하도록 돕고, 이를 통해 고대 문자와 현대 중국 문자를 연결하는 모형의 능력을 향상시킵니다. 이 연구에서는 고대 중국 문자에서 현대 중국 문자로의 구조적 진화가 상당히 있었지만, 특정 지역적 구조는 보존되어 왔다는 사실도 발견했습니다.
확산 모델이 국소 구조의 특성을 학습할 수 있도록 하기 위해 LSS 모듈은 슬라이딩 윈도우 방식을 사용하여 대상 현대 한자 이미지 X0∈RHxWx3와 해당 오라클 뼈 이미지 X∈RHxWx3를 크기가 p×p인 D개의 작은 블록으로 분할합니다. 이를 X(d) 및 Xt(D)∈Rp×p×3(D=1,2…D, p=64)으로 표시합니다. 여기서 Xt는 시간 단계 t에서 가우시안 노이즈 ϵt가 추가된 최신 텍스트 이미지를 나타냅니다.

이 방법을 기반으로,이 모델은 갑골문의 국부적 구조와 한자 구조의 미묘한 차이를 학습하여 패치를 반복하고 최적화할 수 있습니다.우리 방법의 독특한 점은 공유 영역에 균일한 효과를 보장하기 위해 잡음 제거를 완료하지 않고도 각 시간 단계 t에서 이웃 영역 간의 중복을 평균화한다는 것입니다. 동시에 이 연구에서는 샘플링 과정에서 지역적 전환을 부드럽게 하여 가장자리 차이를 피하고 재구성된 이미지의 시각적 일관성을 유지했습니다.
모델의 문자 구조 이해 능력을 향상시키기 위한 제로샷 학습 방법 도입
지역적 구조 샘플링을 사용하여 현대 중국어 문자를 생성하는 데 어느 정도 진전이 있었지만, 초기 해독 노력은 여전히 구조적 변형 및 인공물과 같은 명백한 장애물에 부딪힙니다.

이는 여러 개의 갑골문을 하나의 현대 중국 문자 이미지에 매핑하는 다대일 학습 방법을 사용하기 때문입니다.이로 인해 캐릭터의 진화를 포착하는 데 혼란과 부정확성이 발생합니다.그리고 현대 한자의 표본이 제한적이기 때문에 불완전한 구조가 나타난다.

이러한 과제를 극복하기 위해본 연구에서는 다양한 현대 중국어 문자 쓰기 스타일을 사용하여 모델의 구조에 대한 이해를 향상시키기 위한 제로샷 학습 전략을 제안했습니다.실제 운영에서 이 연구는 20가지의 다양한 현대 중국어 글꼴에 대해 일대일 방식으로 모듈을 훈련시켜, 다양한 현대 중국어 문자 스타일 간의 구조적 변형을 학습하고 모델의 문자 구조 이해 능력을 향상시켰습니다.
아래 그림에서 볼 수 있듯이, 이 제로샷 학습 방법은 범용 글꼴 스타일 전송 프레임워크를 기반으로 합니다. 듀얼 인코더 시스템을 통해 콘텐츠 무결성을 유지하면서 소스 글꼴 이미지 X0의 스타일이 대상 스타일 Xref에 맞게 조정됩니다. 스타일 인코더 Es는 Xref에서 스타일 피처 es를 추출하는 반면, 콘텐츠 인코더 Ec는 Xo와 Xref를 처리하여 다중 스케일 콘텐츠 피처 Fo를 얻습니다. 이 Fo는 다중 스케일 콘텐츠 집계(MCA)와 참조 구조를 통해 Font U-Net에서 개선됩니다. 훈련이 완료된 후, 제로샷 학습 모듈을 직접 사용하여 확산 모델에서 생성된 결과를 최적화할 수 있습니다.

OSBD 성능 평가: 다양한 평가 기준에서 인식 정확도가 가장 높음
OSBD의 성능을 정량적으로 평가하기 위해 본 연구에서는 단일 라운드 복호화와 다중 라운드 복호화라는 두 가지 평가 기준을 사용했습니다. 갑골문 해독에 전념하는 도구가 없기 때문에 이 연구에서는 이 작업에 적합한 선도적인 이미지 간 변환 방법을 적용하기 위해 비교 프레임워크를 채택했습니다.
구체적으로 이러한 방법에는 Pix2Pix, CycleGAN, DRIT++와 같은 GAN 기반 방법과 CDE, Palette, BBDM과 같은 확산 모델이 포함됩니다. 이 설정은 OBSD 방법을 최첨단 이미지 변환의 맥락에서 평가할 수 있도록 보장하고 훈련 및 테스트 조건에서 공정한 일관성을 보장합니다.
단일 라운드의 복호화 평가에서OBSD는 오라클 본을 해독하는 데 있어 변형된 이미지-이미지 변환 방법에 비해 상당한 이점을 가지고 있습니다.아래 그림과 같습니다.
OBS-OCR과 PaddleOCR을 통해 OSBD가 달성한 상위 1 정확도는 각각 41.0%와 30.0%로 다른 방법보다 성능이 우수합니다. 순위가 높아질수록 정확도는 뚜렷한 개선 추세를 보입니다. 상위 500개 정확도에서 OSBD는 64.5%의 OBS-OCR 인식 정확도를 달성했습니다.

이 경우 모든 GAN 기반 방법(Pix2Pix, Palette, DRIT++ 및 CycleGAN 등)은 0.%의 상위 1 정확도로 가장 낮은 효율성을 보인다는 점에 주목할 필요가 있습니다. 이는 GAN 자체가 오라클 본을 해독하는 데 필요한 복잡하고 미묘한 매핑 관계를 포착하는 데 어려움이 있기 때문일 수 있습니다.
여러 차례의 복호화 평가에서OBS-OCR의 성공률은 여러 번의 시도를 거쳐 점차 향상되었습니다.아래 그림에서 볼 수 있듯이, 해당 지표는 성공률 41.0%에서 80.0%로 지속적으로 향상되었습니다.

PaddleOCR 지표의 성장 추세도 30.0%에서 시작하여 최종적으로 58.5%에 도달하며 상승세를 보였습니다. 이러한 결과는 모두 연속적인 시도를 통해 점진적인 개선을 이룰 수 있음을 입증합니다.
각 구성 요소의 영향을 더 자세히 조사하기 위해 이 연구에서는 LSS 모듈과 제로샷 학습에 초점을 맞춘 절제 연구도 수행했습니다. 연구 결과에 따르면, 기본적인 조건 확산 모델만을 사용하여 갑골문을 해독하는 데는 한계가 있으며 정확도가 현저히 낮습니다. 구체적으로, 증강 없이 확산 모델을 훈련하면 본질적으로 의미 없는 출력이 생성됩니다.

LSS 모듈을 도입함으로써,OBS-OCR의 인식 정확도가 37.5%로 향상되었습니다.PaddleOCR이 24%로 개선되었습니다. LSS와 함께 제로샷 학습 모듈을 사용하면 OBS-OCR과 PaddleOCR의 Top-1 정확도는 각각 3.5%와 6%만큼 추가로 향상될 수 있습니다.
마지막으로 본 연구에서는 다양한 이미지 간 변환 모델에 대한 질적 연구도 수행한다.

연구 결과에 따르면, OBSD 방법을 통해 입력된 갑골문은 현대 한자 해독에 가장 정확한 결과를 제공하며, 갑골문의 복잡한 세부 사항도 구분해낼 수 있는 것으로 나타났습니다. 이러한 결과는 OSBD의 효과성을 강조할 뿐만 아니라, 오라클 언어 해독을 위한 전문 도구로서의 잠재력도 보여줍니다.
갑골문이 인공지능과 만나면서 고대 문자 체계가 마침내 새로운 생명을 얻게 되었습니다.
고대 중국 문자 연구 분야, 특히 갑골문 연구 분야에서 화중과학기술대학은 늘 시대를 선도해 왔습니다. 이 대학은 중국에서 최초로 독립적인 갑골문 데이터베이스를 구축한 대학 중 하나입니다. 인공지능 기술의 급속한 발전으로 텍스트와 이미지의 지능적 처리가 인공지능 연구 분야의 주요 관심사 중 하나가 되었습니다. 바이샹과 류위량 연구팀이 대표하는 화중과학기술대학은 다시 한번 텍스트 및 이미지 지능 분야의 선구자이자 선두주자가 되었습니다.
바이샹 교수는 국가 우수 젊은 과학자이자 IAPR 펠로우입니다. 그는 현재 화중과학기술대학 소프트웨어학부 학장이자, 후베이성 기계시각 및 지능형 시스템 공학연구센터 소장을 맡고 있습니다. 이전에,Bai Xiang 교수가 개발한 Monkey 멀티모달 빅모델은 권위 있는 빅모델 목록의 오픈소스 버전인 OpenCompass에서 1위를 차지했습니다.이러한 결과는 우한의 주요 소프트웨어 회사의 혁신적인 제품에 적용되었습니다.
류율량은 바이샹 팀의 핵심 멤버로서 제9회 중국과학기술협회 청년인재 지원 프로젝트에 선정되었습니다. 그는 텍스트와 이미지 지능에 집중하여 문서 지능 분석, 비전 및 자연어 이해, 멀티모달 대형 모델 분야에서 일련의 연구 성과를 달성했습니다.
기술이 발전하고 성숙해짐에 따라, 갑골뼈 연구에서 더 큰 획기적인 성과를 이루기 위해 바이샹과 류율량 교수는 중국 내 갑골뼈 연구의 최고 기관 중 하나인 안양사범대학과 심도 있는 협력을 수행하기로 확고히 결정했습니다. 2018년 교육부 산하 안양사범대학교 오라클정보처리중점연구실 건립이 승인되었습니다. 2019년, 본 연구실에서 갑골문 문서 라이브러리, 목록 라이브러리, 문자 라이브러리를 통합하여 심혈을 기울여 구축한 갑골문 빅데이터 플랫폼인 "은계문원"이 세상에 공개되었습니다.이는 세계에서 가장 완벽하고 표준화되고 권위 있는 오라클 데이터 플랫폼입니다.이 연구의 시작은 오라클 본 연구가 지능 시대로 진입했음을 의미합니다.
본 논문의 책임저자 중 한 명인 류융거는 안양사범대학교 교육부 오라클 정보처리 중점연구실 소장입니다.
갑골문 연구를 더욱 효과적으로 기록하고 보급하기 위해 연구소는 2023년에 두 가지 주요 사업에 집중했습니다. 한편으로는 텐센트 SSV, 중국 사회과학원 고고학 연구소 안양 워크스테이션, 안양시 문물국과 함께 "갑골문 글로벌 디지털 복원 계획"을 공동으로 시작하여 수억 화소의 카메라를 사용하여 디지털 공간에서 실제 갑골문을 고정밀로 복원하고 보호했습니다. 반면, 연구소와 텐센트가 공동으로 출시한 "어메이징 오라클" 미니 프로그램은 오라클을 대중에게 더욱 가깝게 다가가게 했습니다.
우연히도, 학자들이 오라클 본 스플라이싱에 대한 정보를 보다 편리하게 찾을 수 있도록 하고 연구 초기 단계에서 데이터 수집 시간을 단축하기 위해,2023년 초, 푸단대학교 발굴문헌 및 고대문자연구센터 박사과정생인 양이, 황보, 정명혜가 공동으로 "옥주" 갑골문 접합 정보 데이터베이스를 구축했습니다.이 책은 "오라클 본 컬렉션"이 발간된 이래로 많은 학자들이 수집한 6,700개 이상의 오라클 본 스플라이싱 결과를 한데 모았습니다. 이는 학계에서 주요 오라클 본 스플라이싱 결과를 검색하는 온라인 도구가 되었을 뿐만 아니라, "상아탑" 밖의 많은 오라클 본 애호가들이 오라클 본 조각을 풀이하는 작업에 참여하고 수정 사항과 새로운 오라클 본 스플라이싱 정보를 제공할 기회를 갖게 되었습니다.
빅데이터, 클라우드 컴퓨팅, 인공지능 등 디지털 기술의 도움으로 오라클본 연구가 새로운 시대로 접어들었음을 알 수 있습니다. 연구가 심화됨에 따라, 저는 이 "인기 없는 비밀 기술"이 가까운 미래에 더 많은 코드를 밝혀낼 것이며, 다른 고대 문자를 해독하는 데 매우 중요한 참고 자료가 될 것이라고 믿습니다.