HyperAI초신경

140,000개의 이미지가 들어있습니다! 화중과학기술대학교, 고품질 갑골문 데이터세트 공개로 ACL 최우수 논문상 수상

特色图像

역사의 관점에서 현재를 바라보면, 사람들은 역사적 사실을 탐구하는 것을 결코 멈춘 적이 없습니다. 문자는 의심할 여지 없이 여러 시대에 걸쳐 문명이 살아남은 가장 좋은 표시이며, 또한 문명의 발전 과정을 이해하는 방법이기도 합니다. 갑골문자(OBS)는 우리나라에서 가장 오래된 체계적인 문자 형태 중 하나로, 약 3,000년 전으로 거슬러 올라가며 중화민족의 문화를 담고 있습니다.

최근 몇 년 동안 천문학, 기상학, 목축학, 종교, 의례 등 풍부한 내용이 기록된 갑골문이 잇따라 발굴되었습니다. 다른 고대 문자와 마찬가지로, 많은 갑골문 비문의 의미는 시간이 지나면서 사라졌습니다. 발굴된 16만여 점의 갑골문 중에서 4,600여 개의 갑골문이 발견되었지만, 그 중 약 1,500여 개의 갑골문과 그에 해당하는 현대 한자의 의미만 확인되었습니다.

갑골문자를 해독하는 작업은 여러 가지 요소 때문에 복잡합니다. 과거의 부적절한 보존 및 발굴 방법으로 인해 많은 갑골이 손상되었습니다. 이런 손상으로 인해 비문의 일부가 흐릿하거나 읽을 수 없게 되어 연구자들이 해독하기가 더 어려워집니다. 따라서 현재 오라클 본 연구에 사용되는 대부분의 이미지는 노이즈 제거 및 처리된 스캔 이미지이거나 수동으로 필사한 이미지입니다. 또한 갑골문자는 초기 문자 체계로서 상당한 발전을 거쳤으며, 글자의 형태에도 큰 차이가 있습니다. 많은 글자가 생김새는 다르지만 모두 같은 한자에 해당합니다. 이러한 다양성으로 인해 해독 과정이 더욱 복잡해집니다.

갑골문을 완전히 이해하는 데는 여러 가지 요인이 복합적으로 작용한다는 것은 어렵지 않지만, 단 하나의 문자라도 해독해 내는 것은 역사 연구에 큰 의미를 가질 것입니다.앞으로의 길은 길고 험난하며, 이는 고대 중국 연구 분야의 학자와 역사가들 사이에서 큰 관심을 불러일으켰습니다.

고고학자들이 3,000년 된 갑골문 비문을 발견했습니다.

인공지능의 등장으로 연구자들은 이 고대 언어를 이해할 수 있는 새로운 아이디어를 얻었고, AI의 도움으로 갑골문을 해독하는 것이 가능해졌습니다. 하지만 다른 산업에 AI를 적용하는 것과 마찬가지로 포괄적이고 고품질의 데이터 세트가 필수적입니다. 현재 오라클 분야에는 OBI-100, OBI-125, Oracle-20k, HWOBC 등 고품질 데이터 세트가 존재합니다. 그러나 여전히 단일 데이터 소스, 제한된 범주 및 샘플 등 몇 가지 제한 사항이 있습니다. 해독된 갑골문만 포함하고 있으며 해독 작업은 수행할 수 없음 데이터 품질이 좋지 않거나, 노이즈가 심하거나, 형태가 단일합니다.

이에 대응하여 화중과학기술대학교 바이샹 교수 연구팀의 왕펭지에(Wang Pengjie) 등은 고품질의 HUST-OBC 데이터 세트를 제안했습니다.책, 웹사이트, 기존 데이터세트 등 3가지 다양한 출처에서 수집되었습니다. 이 데이터 세트에는 두 가지 유형의 오라클 뼈 샘플 이미지가 포함되어 있습니다. 하나는 원본 갑골문의 스캔본을 가공하여 얻은 갑골문 이미지이고, 다른 하나는 원본 갑골문을 바탕으로 손으로 쓴 갑골문 이미지입니다. 이는 다시 탁본을 바탕으로 한 이미지와 문자를 바탕으로 한 손으로 쓴 이미지로 나뉩니다.

HUST-OBC와 다른 데이터 세트의 비교

"오라클 본 문자 인식 및 해독을 위한 오픈 데이터 세트"라는 제목의 연구가 Scientific Data에 의해 승인되었습니다.

서류 주소:

https://arxiv.org/abs/2401.15365

데이터 세트를 직접 다운로드하세요:

https://go.hyper.ai/46AiA

오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.

https://github.com/hyperai/awesome-ai4s

다양한 소스에서 데이터를 수집하고 반자동 생산 라인을 구축합니다.

다양한 데이터 세트를 구축하기 위해 연구진은 책, 웹사이트, 데이터 세트라는 세 가지 출처에서 갑골뼈 이미지를 수집했습니다.아래 그림과 같이 서로 다른 소스의 데이터를 구성하고 병합하기 위해 반자동 파이프라인을 사용하여 데이터 수집, 자동 주석, 데이터 통합, 데이터 검증이라는 4가지 주요 단계를 수행합니다.

HUST-OBC 데이터셋 구축을 위한 흐름도

데이터 수집

오라클 본은 거북이 껍질과 동물 뼈에 새겨져 3,000년 이상 땅속에 묻혀 있었습니다. 이러한 귀중한 유물은 전 세계 박물관과 개인 소장품에 흩어져 있고 신중하게 보존되어 있기 때문에 원래 갑골문의 텍스트를 직접 얻는 것은 매우 어렵습니다.이러한 어려움을 극복하기 위해 연구진은 전문가가 필사한 갑골뼈 이미지를 활용하고, 권위 있는 서적을 스캔하고, 학술 웹사이트를 크롤링하고, 데이터 세트를 도입하여 풍부하고 다양한 갑골뼈 데이터를 얻었습니다.

데이터 수집 및 처리

자동 라벨링

수집된 원시 데이터에는 자르기, 주석, 필터링 등 추가 처리가 필요합니다. 책에 있는 데이터의 경우, 기존의 OCR 도구로는 책에 있는 갑골문에 해당하는 한자를 정확하게 식별하기 어렵습니다. 그 이유는 해당 한자가 비교적 드물고 잘 알려지지 않았기 때문입니다.연구진은 약 90,000개의 중국어 문자 OCR 모델을 훈련시켜 중국어 문자 태그를 자동으로 식별했습니다. 웹사이트와 데이터베이스의 이미지는 사전 처리되었으며 필터링과 코드 매칭만 필요합니다.

자동 중국어 문자 OCR 방법

데이터 통합

다양한 출처의 주석 표준이 서로 다르기 때문에 같은 갑골문자라도 서로 다른 범주로 분류되는 경우가 있습니다. 예를 들어, 한자 변형어에 주석을 달면서 중복된 범주가 생기는 경우가 있습니다.비지도 시각 대비 학습 모델인 MOCO를 학습함으로써, 중복된 카테고리를 줄이기 위해 유사한 샘플을 동일한 카테고리로 병합합니다.

데이터 통합에서의 대조 학습

데이터 검증

자동 데이터 수집 및 주석 처리 과정에서 오류가 발생할 수 있습니다.연구진은 오라클 학자들을 초대하여 수동 검토와 지침을 수행하여 데이터의 정확성을 보장했고, 최종적으로 HUST-OBC 데이터 세트를 구성했습니다.

연구자들이 최종적으로 구축한 HUST-OBC 데이터 세트에는 해독된 문자 1,588개, 해독되지 않은 문자 62,989개로 구성된 77,064개 이미지가 포함되어 총 140,053개의 이미지가 있습니다.다음은 해독된 데이터와 해독되지 않은 데이터 중 일부를 표시한 것입니다.

해독된 갑골문과 해독되지 않은 갑골문의 예시 이미지

데이터 세트의 품질을 평가하려면AI 모델은 이 데이터 세트를 사용하여 학습되었으며, 해독된 부분은 8:1:1 비율에 따라 학습 세트, 검증 세트, 테스트 세트로 나뉘었습니다. ResNet은 이미지 분류 작업에 사용되었습니다. 최종 분류 정확도는 94.6%이고 거시 평균 F1 점수는 0.914였습니다. 일부 결과는 다음과 같습니다.

Oracle 예제에 대한 분류 메트릭

팀은 Oracle 개발에 열심히 노력하여 ACL 최우수 논문상을 수상했습니다.

화중과학기술대학은 갑골문 연구의 선두에 서서, 중국에서 최초로 독립적인 갑골문 데이터베이스를 구축한 대학 중 하나입니다. AI 열풍이 전통적인 과학 연구를 변화시키는 가운데, 바이샹 교수가 대표하는 연구자들은 다시 한번 AI 기반 오라클 본 연구의 선구자이자 개척자가 되었습니다.

바이샹 교수는 현재 국가 우수 젊은 과학자이자 IAPR 펠로우로 선정되었습니다. 그는 현재 화중과학기술대학 소프트웨어학부 학장이자, 후베이성 기계시각 및 지능형 시스템 공학연구센터 소장을 맡고 있습니다.최근 바이샹 교수팀이 발표한 "확산 모델을 이용한 오라클 본어 해독"이 ACL 2024 최우수 논문상을 수상했습니다.

이 연구에서는 HUST-OBS 데이터 세트와 EVOBC 데이터 세트를 기반으로 이미지 기반 생성 모델을 사용하여 오라클 본 스크립트 해독에 최적화된 조건부 확산 모델인 Oracle Bone Script Decipher(OBSD)를 학습했습니다. 이 모델은 갑골문자의 보이지 않는 범주를 조건부 입력으로 사용하여 해당 현대 중국어 문자 이미지를 생성함으로써 자연어 처리에서 해결하기 어려운 고대 문자 인식 작업에 대한 새로운 방법을 제공합니다.

Oracle 디코딩을 위한 조건부 확산 모델

평가실험 결과에 따르면, OBSD방법으로 입력된 갑골문자는 현대 한자 해독에 가장 정확한 결과를 낼 수 있으며, 갑골문자의 복잡한 세부 사항도 구분해낼 수 있는 것으로 나타났다. 이러한 결과는 OSBD의 효과성을 강조할 뿐만 아니라, 오라클 본어 해독을 위한 전문 도구로서의 잠재력도 보여줍니다.

책 추첨

HyperAI와 전자산업 출판사가 공동으로 무료 도서를 제공해드립니다! 과학을 위한 AI: 인공지능이 과학 혁신을 이끈다'라는 주제로 매우 유용한 대중 과학 서적 5권을 준비했습니다. 추첨에 참여하세요~

참여 방법

HyperAI 위챗 공식 계정을 팔로우하고, 백그라운드에 "AI4S 무료책"이라고 댓글을 달고, 추첨 페이지를 클릭하여 추첨에 참여하세요. 저희는 여러분을 위해 5권의 책을 준비했으며, 택배로 배송해 드립니다. 와서 참여하세요!

책 소개

단백질 구조 예측부터 유전자 돌연변이의 병원성 추론까지, AI가 주도하는 새로운 패러다임은 생명 과학을 포함한 다양한 과학 분야에서 새로운 기회를 볼 수 있게 해주었습니다.

"과학을 위한 AI: 인공지능이 과학 혁신을 주도한다"라는 책은 재료 과학, 생명 과학, 전자 과학, 에너지 과학, 환경 과학이라는 5개 주요 분야와 인공지능의 교차 통합에 초점을 맞추고 있습니다. 이 책은 이해하기 쉬운 언어를 사용하여 기본 개념, 기술 원리, 응용 시나리오를 포괄적으로 소개함으로써 독자들이 과학을 위한 AI의 기본 지식을 빠르게 습득할 수 있도록 돕습니다. 또한 이 책은 각 분야별로 사례를 통해 자세한 소개를 제공하고, 산업 지도를 정리하며, 관련 정책에 대한 통찰력을 제공합니다.