铭文、碑刻是过去文明的思想、文化和语言的体现。金石学家破译千年前的密码,需要完成文本修复、时间归因和地域归因三大任务。
主流的研究方式是「字符串匹配」,即凭借记忆或查询语料库匹配字型相似的铭文,这导致了结果的混淆和误判。
为此,DeepMind 和威尼斯福斯卡里大学联合开发了 Ithaca,利用 AI 帮助人类学者破译希腊铭文。
作者 | 加零
编辑 | 雪菜、三羊
金石学,是研究金石铭文、碑刻和古代铭文的学科,连接着过去文明的思想、文化和语言。目前,学界面临着一个重要问题:如何深入研究和理解这些遗产?
通常意义上,解读铭文碑刻需要金石学家完成以下 3 个基本任务:
完成这些任务,金石学家需要结合上下文和现有语料库,开展大量比对研究。虽然数字语料库的出现能一定程度减少研究人员的负担,但其采取的字符串匹配方式,往往导致结果的混淆和误判。同时由于年代久远,铭文多有受损和遗失,使得任务愈发复杂。
铭文修复图示
而 AI 善于发现并运用复杂的统计模式,对人难以处理的大批量数据进行分析。因此,DeepMind 和威尼斯福斯卡里大学 (Ca’ Foscari University of Venice) 的研究者联合开发了 Ithaca,旨在协助金石学家进行文本修复、时间归因和地域归因的工作。
实验证实,Ithaca 文本修复工作的准确率达到 62%,时间归因误差在 30 年内,地域归因准确率达到 71%,且具有很好的协同性。相关论文已发表于「Nature」。
相关成果发表在「Nature」
获取论文:
https://www.nature.com/articles/s41586-022-04448-z
Ithaca 的相关代码已开源在 GitHub 平台,金石学家也可利用公共界面开展研究。
源代码:https://GitHub.com/deepmind/Ithaca
公共界面:https://Ithaca.deepmind.com
实验过程
研究者们基于帕卡德人文研究所的可搜索希腊铭文公共数据集 PHI 开展研究。
注:PHI 全称 The Packard Humanities Institute’s Searchable Greek Inscriptions public dataset
为了便于机器操作,研究者们对 PHI 中的文本进行过滤,为选择的文本分配数字 ID 、相应的标注地点和时间信息,最终得到 I.PHI 数据集。
I.PHI 数据集是目前最大的机器可操作铭文数据集,包含 78,608 个铭文。
I.PHI 数据集示例
1. 文本修复:采用交叉熵损失函数,掩盖输入文本的部分内容,训练 Ithaca 模型预测被掩盖的字符;
2. 时间归因:以 10 年为间隔,Ithaca 将公元前后 800 年离散为具有相等概率的时间段,称为目标概率分布。采用 Kullback-Leibler 散度,最小化预测概率分布和目标概率分布之间的差异;
3. 地域归因:使用交叉熵损失函数,将地域区域元数据作为目标标签,应用平滑系数 10% 的标签平滑技术避免过拟合。
基于此,Ithaca 在谷歌云平台上的 128 个 TPU v4 pod 上开展了一周的训练,batch size 为 8,192 篇文本,使用 LAMB 优化器以 3 × 10-4 的学习率优化 Ithaca 参数。
Ithaca 模型任务处理流程
Ithaca 模型的结构可总结为以下 4 部分:
1. 输入 (Inputs):将输入文本作为字符和单词共同处理,保证 Ithaca 既可以理解单个字符,又可以将其整合为单词进行上下文理解,未知、损坏的单词用特殊符号「unk」替代;
2. 躯干 (Torso):Ithaca 的躯干采用叠加 Transformer 神经网络架构,它使用一种注意力机制 (attention mechanism) 来衡量输入的字符、单词对模型决策过程的影响。
在躯干部分,Ithaca 将输入文本与位置信息结合,标准化处理为一个长度等于输入字符数的序列,这个序列中每个项目是一个 2,048 维的嵌入向量。该序列被传输给 3 个不同的任务 head;
3. 任务头 (Task heads):Ithaca 有 3 个不同的任务 head,每个 head 由一个浅前馈神经网络组成,专门处理文本修复、时间归因和地域归因任务。
4. 输出 (Outputs):3 个任务 head 分别输出对应结果。
Ithaca 输出结果
* 4 个对比机制
1. Ancient historian:人类学者使用训练集来寻找文本的相似之处,与 Ithaca 的结果对比;
2. Ancient historian and Ithaca:Ithaca 为金石学家提供 20 个可能的修复,评估 Ithaca 与人类学者的协同性;
3. Pythia:一个用于文本修复任务的序列到序列递归神经网络 (a sequence-to-sequence recurrent neural network),评价 Ithaca 的文本修复性能;
4. Onomastics:研究人员使用希腊人名在时间和空间上的已知分布,完成一组文本的时间和地域归因,评价 Ithaca 的时间和地域归因性能。
* 3 大评价指标
1. 字符错误率 (CER, character error rate):评价文本修复任务,计算最高预测修复序列和目标序列之间的归一化差异;
2. top-k accuracy:评价文本修复或地域归因任务,计算预测结果中概率最大的前 k 个结果包含正确标签的占比,常用 top 1 准确率;
3. distance metric (Methods):评价时间归因任务,计算预测分布的平均值与真值区间 (ground-truth interval) 之间的年数距离。
* 实验结果
1. 文本修复
文本修复任务
a:原始铭文;
b:Rhodes-Osborne 修复后的铭文;
c:Pythia 修复版,与 Rhodes-Osborne 版有 74 处不匹配;
d:Ithaca 修复版,与 Rhodes-Osborne 版有 45 处不匹配;
图中修复正确的部分由绿色表示,错误用红色突出表示。
原始铭文 (IG II² 116) 缺失 378 个字符,以 Rhodes-Osborne 在 2003 年完成的修复 (图 b) 为基准,Ithaca 的 CER 为 26.3%,top 1 准确率达到 61.8% 。
与金石学家相比,Ithaca 的 CER 低 2.2 倍。 Ithaca 的前 20 名预测准确率为 78.3%,比 Pythia 高 1.5 倍。
2. 地域归因
地域归因任务
地域归因任务中,Ithaca 达到了 70.8% 的 top 1 准确率和 82.1% 的 top 3 准确率。上图表示 Ithaca 将 manumission 铭文正确的归因到了 Delphi 地区。
3. 时间归因
时间归因任务
对于时间归因任务,人类专家预测的平均值为 144.4,中位数为 94.5 年,而 Ithaca 的预测与真值区间 (ground-truth interval) 平均差距为 29.3 年,中位数的差距仅为 3 年。
综合 Ithaca 在三项任务中的表现,结果整理如下:
相较于人类专家和 Pythia,Ithaca 在 3 大任务上都展现了优越的性能。
当人类专家与 Ithaca 协同时,达到了 18.3% 的 CER 和 71.7% 的 top 1 准确率,相比金石学家单独开展工作呈现出 3.2 倍和 2.8 倍的改善,相比 Ithaca 独自完成任务也有显著改善,展现了 Ithaca 优越的协同性。
Ithaca 的实验结果对比
部分铭文的时间归因一直存在争议,传统时间归因采用的 sigma 测年标准 (sigma dating criterion) 无法保证准确,金石学家无法确定这些铭文是在公元前 446/5 年之前还是之后。
如下图的铭文,依照传统方法追溯到公元前 446/5 年,但最近被重新追溯到公元前 424/3 年。
一条争议铭文(局部)
这组有争议的铭文存在于 I.PHI 数据集中,Ithaca 的时间归因结果推翻了基于 sigma 测年标准的传统历史解读,与新发现的基础事实平均相差 5 年。
由此证明,Ithaca 可以帮助历史学家缩小日期范围,提高历史事件时间归因的精确度。
Ithaca 的结果输出部分非常有趣,它并不会输出单一的答案,而是给出多种可能的结果以供研究人员选择。
这值得其他 AI 开发者和使用者借鉴,与其依赖 AI 的输出,不如利用 AI「探路」,排除一些错误答案,拓展自主思考的深度和广度。
将 AI 的计算能力与人类的创造性和深度思考相结合,Ithaca 帮助我们开拓了一种与 AI 携手合作的范式。
未来,我们期待 AI 与人类学者协同并进,实现「1+1 > 2」的目标。
参考文献:
https://www.nature.com/articles/s41586-022-04448-z
https://www.nature.com/articles/d41586-023-03212-1
—— 完 ——