Google DeepMind는 176,000개 이상의 비문 데이터를 기반으로 고대 로마 비문의 임의 길이 복원을 처음으로 달성한 Aeneas를 출시했습니다.

초기 인류 문명의 모든 기억은 비문과 문자 속에 숨겨져 있습니다. 비문은 가장 초기의 문자 형태 중 하나로, 사람들이 고대 문명의 사상, 언어, 그리고 역사를 이해할 수 있는 창을 제공합니다. 황제의 칙령부터 노예의 묘비에 이르기까지, 석판과 청동에 새겨진 이러한 문자들은 시대를 판단하고 문화를 이해하는 직접적인 증거가 되었습니다. 매년 1,500개의 새로운 라틴어 비문이 발견되는 것으로 추정되지만, 비문학 연구는 불완전한 텍스트, 해석의 어려움, 그리고 제한된 지식 등 많은 어려움에 직면해 있습니다.
2025년 7월 23일, 구글 딥마인드의 연구진은 노팅엄 대학교, 워릭 대학교 및 기타 대학과 협력하여 세계 최고의 학술지인 네이처에 "생성적 신경망을 이용한 고대 텍스트의 맥락화"라는 제목의 연구 논문을 발표했습니다.
이 연구에는 세 가지 주요 혁신적 하이라이트가 포함되어 있습니다.
* 아이네이아스는 텍스트 필사본과 비문 이미지를 모두 수신할 수 있습니다. 이미지는 얕은 시각 신경망으로 처리되고 텍스트 특징과 결합되는데, 이는 지리적 속성 작업에 특히 유용합니다.
* 이전에는 AI가 길이가 정해진 텍스트만 복구할 수 있었지만, 아이네이아스는 복구의 한계를 깨고 처음으로 "길이에 상관없이 텍스트를 복구"하는 기술을 개척했습니다.
* 아이네이아스의 핵심 역량은 대상 비문과 가장 관련성이 높은 "대등 텍스트"를 찾는 것입니다. 이러한 대등 텍스트는 유사한 문구를 포함할 뿐만 아니라, 문화적 배경이나 사회적 기능 등 기존 문자열 매칭의 한계를 훨씬 뛰어넘는 깊은 연관성을 포괄합니다.
모델 아키텍처: 다중 모드 생성 신경망 Aeneas
아이네이아스는 다중 모드 생성 신경망입니다.트랜스포머 기반 디코더를 사용하여 비문의 텍스트와 이미지 입력을 처리하고, 얕은 시각 신경망을 사용하여 라틴어 비문 데이터세트에서 유사한 비문을 검색하여 관련성 순으로 정렬합니다. 입력 텍스트는 모델의 핵심 부분인 "토르소"에서 처리됩니다.
아이네이아스는 라틴어 비문의 문맥 분석을 위해 설계되었습니다. 아키텍처는 입력 처리, 핵심 모듈, 작업 헤더, 그리고 문맥화 메커니즘으로 구성됩니다.
입력 처리:입력은 비문의 문자열과 224×224 크기의 회색조 이미지입니다. 문자열은 최대 768자까지 입력 가능하며, "-"는 길이가 알려진 누락된 문자를 표시하는 데 사용되고, "#"는 길이가 알려지지 않은 누락된 문자를 표시하는 데 사용되며, <는 문장 시작 마커로 사용됩니다.
핵심 모듈:텍스트는 T5 트랜스포머 디코더를 개선한 토르소(Torso)로 처리됩니다. 토르소는 16개의 레이어, 각 레이어당 8개의 어텐션 헤드, 그리고 상대 위치 회전 임베딩을 갖추고 있으며, 이미지는 ResNet-8 시각 네트워크로 처리됩니다. 토르소 네트워크와 시각 네트워크의 출력은 헤드의 전담 신경망으로 전달됩니다. 이 신경망은 텍스트를 사용하여 문자 복원 및 연대 측정 작업을 처리하며, 각 헤드는 세 가지 핵심 비문학적 작업을 처리하도록 맞춤 설정됩니다.
작업 헤더(작업 책임자):출력에는 텍스트 복구(알려지지 않은 길이 복구를 위한 보조 헤드, 빔 검색을 사용하여 가설 생성)를 위한 전담 작업 헤드, 지리적 귀속(텍스트와 시각적 특징을 결합하여 62개 로마 속주를 분류), 연대순 귀속(날짜를 160개의 개별 10년 간격으로 매핑)이 있으며, 모두 눈에 띄는 맵이 포함되어 있습니다.
문맥화 메커니즘:몸통과 작업 머리의 중간 표현을 통합하여 역사적으로 풍부한 임베딩을 생성함으로써, 코사인 유사도를 기반으로 관련된 병렬 비문을 검색하여 역사가의 연구를 지원합니다.

아이네이아스가 "Senatus populusque Romanus"라는 문구를 처리하는 과정을 예로 들어보겠습니다. 비문 이미지와 그 텍스트 전사본(길이를 알 수 없는 손상된 부분에 "#"라고 표시)이 주어졌을 때, 아이네이아스는 토르소를 사용하여 텍스트를 처리합니다. 머리는 문자 복원, 연대 측정, 그리고 지리적 귀속(지리적 귀속 작업에는 시각적 특징도 포함됨)을 담당합니다. 토르소의 중간 표현은 역사적으로 풍부한 통합 임베딩 벡터로 융합되어 라틴어 비문 데이터셋(LED)에서 유사한 비문을 검색하고 관련성 순으로 정렬합니다.
다음 사항을 유의해야 합니다.아이네이아스 모델은 지리적 귀속 헤드에 대해서만 시각 네트워크로부터 추가적인 입력을 통합합니다. 텍스트 인페인팅과 연대순 귀속 작업에는 시각적 모달리티를 사용하지 않습니다.복원 작업에서는 우발적인 정보 "유출"을 방지하기 위해 시각적 입력을 배제합니다. 텍스트의 일부가 인위적으로 가려져 있고 이미지에서 정확한 위치를 알 수 없기 때문에, 모델은 시각적 단서를 사용하여 숨겨진 문자를 추론하고 복원할 수 있으며, 이로 인해 작업의 무결성이 손상될 수 있습니다.
데이터 세트: 라틴어 비문의 기계 판독 가능 데이터 세트 중 가장 큰 규모
이 연구에서는 Aeneas 모델을 훈련하는 데 사용된 코퍼스 데이터베이스를 LED(Latin Inscriptions Dataset)라고 부르는데, 이는 지금까지 기계로 조작 가능한 가장 큰 규모의 라틴어 비문 데이터 세트입니다. LED 데이터 세트의 종합 코퍼스 데이터는 가장 포괄적인 라틴어 비문 데이터베이스인 로마 비문 데이터베이스(EDR), 하이델베르크 비문 데이터베이스(EDH), 클라우스-슬라비 데이터베이스에서 추출되었으며, 이 데이터베이스들은 기원전 7세기부터 서기 8세기까지의 비문을 포함하고 있습니다. 지리적 범위는 서쪽으로는 로마의 브리타니아(현재의 영국)와 루시타니아(포르투갈) 속주부터 동쪽으로는 이집트와 메소포타미아까지 다양합니다. 전체 LED 데이터 세트의 일관성을 보장하기 위해, 본 연구에서는 트리스메기스토스 데이터 플랫폼의 식별자를 사용하여 데이터의 모호성을 처리하고, 일련의 필터링 규칙을 적용하여 사람의 주석을 체계적으로 처리함으로써 기계가 텍스트를 처리할 수 있도록 했습니다.
표준화된 메타데이터를 얻으려면이 연구에서는 날짜와 역사적 기간과 관련된 모든 메타데이터를 기원전 800년부터 서기 800년까지의 숫자로 변환했습니다.이 범위를 벗어나는 비문은 제외되었습니다. 모델의 학습 및 일반화 기능을 향상시키기 위해, 데이터세트의 주요 텍스트 내용은 다음 표준에 따라 기계가 처리할 수 있는 형식으로 변환되었습니다.
* 역사가들의 주석을 비문에서 삭제하거나 표준화하고, 원래 비문에 가장 가까운 버전을 유지합니다.
* 라틴어 약어는 분석되지 않지만, 통시적, 양방향적 또는 어미 변화의 이유로 대체 철자를 표시하는 단어 형태는 모델이 비문학적, 지리적 또는 연대학적 특정 변형을 학습할 수 있도록 유지됩니다.
* 편집자가 복구했거나 최종적으로 복구할 수 없었던 누락된 문자를 보존하고, 누락된 문자의 정확한 개수가 불확실할 때는 파운드 기호(#)를 플레이스홀더로 사용하고, 간결한 출력을 보장하기 위해 여분의 공백을 줄입니다.
* 라틴 문자가 아닌 문자를 제거하고 라틴 문자, 미리 정의된 구두점 및 플레이스홀더만 남겨둡니다.
* 중복된 비문을 필터링합니다. 90% 콘텐츠 유사도 기준을 초과하는 텍스트는 중복으로 간주됩니다.
이 연구에서는 형식을 변환한 후 고유한 식별 식별자의 마지막 숫자를 기준으로 LED를 훈련, 검증 및 테스트 세트로 나누어 하위 세트 전체에 걸쳐 이미지가 균등하게 분포되도록 했습니다.

자동 필터링 과정을 구현한 후, 이 연구에서는 단일 순수 색상으로 주로 구성된 이미지를 제거하기 위해 색상 히스토그램에 임계값을 적용하고, 라플라시안 행렬의 분산을 사용하여 흐릿한 이미지를 식별하여 제거하고, 정리된 이미지를 회색조 이미지로 변환하여 데이터 세트에서 사용 가능한 비문 이미지를 얻었습니다. LED 데이터 세트에는 총 176,861개의 비문이 포함되어 있지만, 그 중 대부분이 부분적으로 손상되어 51개의 TP3T 비문만이 사용 가능한 해당 이미지를 생성할 수 있습니다.
실험 결론/성능
연구자들은 작업 실행, 지명 기준, 맥락화 메커니즘, 연구 효율성이라는 세 가지 측면에서 아이네이아스 모델의 성능을 평가했습니다.
* 고유명사학은 사람, 장소, 부족, 신의 이름 등 고유명사의 기원, 구조, 진화 및 의미를 연구하는 학문입니다.
작업 실행 지표
본 연구에서는 텍스트 복원, 지리적 귀속, 시간적 귀속의 세 가지 지표를 사용하여 평가 프레임워크를 형성합니다.연구진은 인공적인 방법을 사용하여 임의 길이의 텍스트를 파괴하고 복구된 객체를 생성하는 모델을 제출했습니다. 지리적 귀속 작업에서는 표준 Top-1 및 Top-3 정확도 지표를 사용하여 성능을 평가했습니다. 시간 귀속의 경우 설명 가능한 지표를 사용하여 예측된 결과와 실제 데이터 간의 시간적 근접성을 평가했습니다.
실험 결과, Aeneas의 아키텍처는 다중 모드 기능을 제공한다는 것이 밝혀졌습니다.알 수 없는 길이의 텍스트 시퀀스를 복구할 수 있습니다.또한 파피루스나 동전과 같은 고대 언어와 기록 매체에도 적용할 수 있으며, 고대 텍스트 연구의 맥락화 과정에서 비문과 역사 사이의 연관성을 포착할 수 있습니다.
오노마스틱 기준선
아이네이아스 모델이 지명학에서 파생된 메타데이터를 자동으로 평가하는 기능은 해당 모델의 속성 예측 능력을 나타내는 주요 지표가 됩니다.로마 고유명사의 사전 편집된 목록이 없기 때문에연구팀은 고유명사를 나타내지 않는 350개 항목을 고유명사 저장소에서 수동으로 제거했습니다.사용상의 모호성으로 인해 길이가 짧거나 라틴 문자가 아닌 문자가 포함된 항목은 제외되었으며, 그 결과 약 38,000개의 고유명사가 정리된 목록이 만들어졌습니다.
접근 방식의 견고성을 높이기 위해 데이터 집합에서 가장 흔한 단어를 식별하여 선별된 고유 명사 목록에서만 항목으로 필터링한 다음, 훈련 데이터 집합에서 평균 시간적, 지리적 분포를 계산했습니다. 이를 통해 Aeneas 모델은 처리된 고유 명사 데이터를 활용하여 새로운 비문을 분석할 때 날짜와 출처를 예측할 수 있었습니다.
이 작업을 위한 Aeneas 모델의 평가 방법은 전체 데이터 세트에 적용될 수 있으며 향상된 확장성을 달성합니다.
맥락화 메커니즘과 연구 효율성
이 연구는 역사 연구를 위한 기본 도구로서 아이네이아스 모델의 맥락화 메커니즘의 효과를 평가했습니다. 다양한 배경을 가진 23명의 비문학자가 익명으로 평가에 참여했습니다.세 가지 비문 과제를 수행한 경험을 바탕으로, 아이네이아스의 맥락화 메커니즘을 연구 보조 도구로 사용하는 것의 효율성을 평가했습니다.
* 아이네이아스 모델은 관련 정보를 검색하는 데 소요되는 시간을 크게 줄여 연구자들이 더 심층적인 역사적 해석과 연구 질문 구성에 집중할 수 있도록 해줍니다.
* 아이네이아스 모델이 수집한 정보는 정확하며 비문의 유형과 맥락에 대한 귀중한 통찰력을 제공하여 연구 과제를 발전시키는 데 도움이 됩니다.
* 아이네이아스는 중요하지만 이전에는 주목받지 못했던 관련 정보와 간과되었던 텍스트 기능을 식별하여 검색 범위를 넓히고 결과를 개선합니다.
일부 전문가들은 진위성을 의심한다
인공지능 분야 기술 전문가 데이비드 갤브레이스는 "아이네아스는 역사학 분야에서 인공지능의 시초"라고 말했습니다. 아이네아스의 획기적인 발전은 기술적 진보일 뿐만 아니라 인문학과 인공지능의 깊은 통합을 보여주는 신호이기도 합니다. 역사학자들에게 아이네아스는 단순히 학자들을 대체하는 것이 아니라, 기계적인 노동을 줄이고 연구 지평을 넓혀주는 "슈퍼 조수"에 가깝습니다. 동시에 인공지능 분야에서는 복잡한 인문학 데이터 처리에 있어 다중 모드적이고 맥락화된 모델의 잠재력을 입증하고, 다른 고대 언어 연구의 미래 발전을 위한 모델을 제시합니다.

아이네아스는 여전히 한계를 가지고 있습니다. 아이네아스의 획기적인 성과에 직면하여, 또 다른 인공지능 전문가는 "AI에 대한 과도한 의존은 진실성에 대한 의문을 제기할 것"이라며 우려를 표명했습니다.

물론, AI는 도구일 뿐, 실질적인 대체재가 아닙니다. 훈련 데이터에서 이미지가 포함된 비문은 5%에 불과하며, 일부 지역(예: 시칠리아)과 시기(예: 기원전 600년 이전)의 비문 수는 부족하여 예측 정확도가 저하됩니다. 이러한 모든 사실은 현재 AI 기술이 아직 미숙하다는 것을 경고하며, 우리는 과학 연구와 삶에서 AI가 차지하는 비중을 합리적으로 선택해야 합니다.