来源:Nature
本文为精选翻译。原文标题为:How AI is unlocking ancient texts — and could rewrite history
Nature 637, 14-17 (2025)
doi: https://doi.org/10.1038/d41586-024-04161-z
2023 年 10 月,一封电子邮件发送到 Federica Nicolardi 的手机上,里面有一张永远改变了她的研究的图片。它展示了公元79 年维苏威火山爆发时被烧毁的纸莎草卷轴的碎片。这卷烧焦的卷轴是 18 世纪在意大利庞贝附近赫库兰尼姆的一座豪华罗马别墅遗址中发现的数百卷卷轴之一。几个世纪以来,人们试图剥开卷轴脆弱的碳化层,但卷轴上许多部分都成了碎片,学者们不得不接受其余部分永远无法打开的事实。
尼科拉迪是意大利那不勒斯大学的纸莎草学家,他曾参与一项利用人工智能 (AI) 解读不可读文字的研究。现在最新的成果已经出炉。图片显示,纸莎草纸上写满了整齐的希腊字母,在较暗的背景下闪闪发光。字迹清晰可辨,只有几行深,横跨近五栏。
人工智能技术帮助揭示了赫库兰尼姆古卷中这片烧焦的纸莎草纸上的墨水。图片来源:Vesuvius Challenge
“太不可思议了,”尼科拉迪说。“我想,‘这真的是真的吗?’”她当时就知道纸草学将不再是以前的样子了。“那一刻,你真的会想‘现在我所经历的将成为我所在领域历史性时刻的事情。’”她正在阅读 2000 年来完全无法阅读的整篇文本。
该项目名为“维苏威火山挑战”,它只是人工智能如何改变现代生活各个领域(从银行业到医学研究)的一个例子,它将重塑我们对古代世界的看法。人工智能已经彻底改变了现代生活的所有领域,从银行业到医学研究。人工神经网络被用于破译古代文献,从希腊文和拉丁文的经典著作到中国的甲骨文,后者是写在牛骨和龟甲上的古代占卜文本。它们正在解读人类无法阅读的庞大档案,填补缺失和无法阅读的字符,解码几乎没有任何痕迹留存的稀有和失传的语言。
维苏威火山爆发时烧焦的卷轴无法打开,否则会损坏它们。图片来源:肯塔基大学 EduceLab
研究结果有望带来大量新文献,为学者提供数百年来从未有过的数据。但这还不是全部。由于人工智能工具能够识别的语言和存储的信息比任何一个人所能知道的都要多,并且能够自己发现文本中的统计模式,这些技术有望为探索古代资料提供一种全新的方式。Nicolardi 说,这不仅可能改变“我们想要回答的问题”,而且可能改变“我们可以提出的问题”。
01
重建古代文献
几十年来,人们一直使用计算机对数字化文本进行分类和分析。但目前最令人兴奋的是神经网络的使用,它由相互连接的节点组成的分层结构组成,尤其是具有多个内部层的“深层”神经网络。
2010 年代,人们开始尝试将深度学习应用于古代文献,这些尝试基于文本的数码照片,无论是纸莎草纸还是棕榈叶。受视觉神经科学启发,卷积神经网络 (CNN) 模型可以从图像中捕获网格状数据。它们用于光学字符识别,但也有其他应用:研究甲骨文的中国团队使用此类模型填充被侵蚀的字母图像,分析甲骨文字符随时间的变化,并将破碎的碎片拼凑在一起。与此同时,循环神经网络 (RNN) 旨在处理线性顺序很重要的数据序列,它开始在搜索、翻译和填补已转录文本中的空白方面显示出巨大的潜力。例如,它们已被用来提示古巴比伦数百种程式化的行政和法律文本中缺失的字符。
神经网络能否超越繁琐的任务,建立人类专家无法建立的联系?第一个展示人工智能潜力的大型项目始于 2017 年英国牛津大学的一项合作,当时 Thea Sommerschield 正在攻读古代史博士学位,Yannis Assael 正在攻读计算机科学博士学位。Sommerschield 试图破译西西里的希腊铭文,并向 Assael 解释了其中的挑战。“它们非常复杂,难以阅读,保存得很差,部分内容已经丢失,”她说。“我们不确定它们来自哪里,也不知道它们的日期;其中混合了有趣的方言。”
古典学家利用他们对类似现有文本的了解来解释新资料。他们通常是特定时间和地点作品的专家;一个人不可能掌握与新文本可能相关的所有资料。阿萨尔目前在伦敦的谷歌 DeepMind 工作,他表示,这正是机器学习模型可以帮助解决的挑战。
研究人员最初用公元前七世纪至公元五世纪之间书写的数万篇希腊铭文训练了一个基于 RNN 的模型 Pythia 。然后他们向模型展示了它从未见过的文本,并要求它建议缺失的单词或字符。
索默斯基尔德现在就读于英国诺丁汉大学,她仍然记得第一次与阿萨尔和她的导师乔纳森·普拉格一起运行该模型的情景,当时她看到修复后的角色一个个出现在屏幕上,这是以前从未有过的事情。
“这就像电影中的场景,”她说。“我们真的感觉下巴都掉到地上了。” 2022 年,他们又推出了一个名为 Ithaca 的模型,该模型还能为未知文本的日期和地点提供建议。
这一次,研究人员利用了机器学习领域的一项突破,即 transformer 模型,该模型通过并行分析输入的不同特征(例如字符或单词),并根据上下文对其进行加权,从而捕捉到比 RNN 更复杂的语言模式。(OpenAI 的 ChatGPT 和 Anthropic 的 Claude 等流行聊天机器人都基于 transformer 模型。)
Sommerschield 表示,该团队的目标是设计出能够帮助研究人员更有效地工作的工具:神经网络探测庞大档案库中的连接,人类则带来他们的专业理解。“人类是我们设计的中心,”Assael 表示赞同。
在测试中,Ithaca 以 62% 的准确率修复了古代文献中人为造成的空白,而人类专家的准确率仅为 25%。但在 Ithaca 的建议下,专家们取得了最好的结果,填补空白的准确率达到 72%。Ithaca 还以 71% 的准确率确定了铭文的地理来源,并将其年代确定在公认估计的 30 年之内。
Ithaca可免费在线访问,据其创建者称,每周已收到数百条查询。Sommerschield 表示,除非作者选择承认,否则不可能知道它何时对研究有所贡献,但迄今为止报告的例子包括重新确定雅典政治法令的年代,以及对公元前四世纪的泥板的调查,这些泥板包含向希腊西北部多多纳神谕者提出的问题。
02
档案的海洋
与此同时,韩国研究人员在处理世界上最大的历史档案之一时,面临着截然不同的挑战:这些档案包含数十万篇详细的每日记录,涵盖了从 14 世纪到 20 世纪初 27 位朝鲜国王的统治时期。“数据量非常庞大,”纽约大学领先的机器翻译研究员 Kyunghyun Cho 说。
Cho 通常使用现代语言进行研究,但在与他的父亲(一位退休的韩国文学教授)讨论后,他对档案产生了兴趣。这些记录很完整,来源也众所周知,但几乎没有人能读懂。它们是用汉字书写的,这是一种基于汉字的古代书写系统,与现代中文或韩语不同。
朝鲜王朝的国王档案正在被人工智能翻译和分析。图片来源:韩国国立故宫博物院
一个由政府翻译人员组成的小型团队正在努力将这些文本手动翻译成现代韩语,但这项任务可能需要几十年才能完成。 Cho 与首尔成均馆大学的 JinYeong Bak 等韩国同事合作,训练了一个基于 Transformer 的网络来自动翻译这些记录。
目前还没有足够的材料被翻译成现代韩语来训练这样的模型,因此该团队采取了多语言方法,使用汉字、几十年前翻译成古韩语的翻译以及有限数量的韩语和英语的现代翻译。 人类专家认为,人工智能翻译——对国事访问、惩罚叛徒和音乐会等事件的描述——比古韩语翻译更准确、更易读,在某些情况下甚至比现代翻译更好。
另一方面,研究人员正在使用神经网络来处理只有少量文本存留下来的古代语言。 Transformer 模型并不总是适用于这些情况,因为它们需要大量的训练材料。 例如,希腊帕特雷大学的 Katerina Papavassileiou 和她的同事使用 RNN 恢复了克里特岛克诺索斯的一系列 1,100 块迈锡尼泥板中缺失的文本,这些泥板包含公元前二千年用一种名为线形文字 B 的文字写成的关于羊群的描述。
在存在人为制造间隙的测试中,该模型的前十个预测有 72% 的时间包含正确答案,而在现实世界中,它通常与人类专家的建议相符。 为了进一步改善结果,Papavassileiou 希望添加视觉数据,例如不完整字母的痕迹,而不仅仅是依赖音译文本。她还在研究“迁移学习”,即模型将从一系列平板电脑中获得的经验教训应用到另一系列平板电脑上。
Papavassilieou 希望有一天能够使用在线性文字 B 上训练的模型来解读线性文字 A,这是米诺斯文明使用的一种文字,它与线性文字 B 有许多共同的符号,但从未被破译过。
米诺斯文明(公元前15 世纪)的泥板,上面刻有线性文字 A,但从未被解密。这些泥板是在克里特岛的阿卡尼斯发现的。图片来源:DeAgostini
03
解读不可读的内容
或许,人工智能解决巨大挑战的最终证据就是赫库兰尼姆古卷研究者的成功。“我认为他们正在做一些最令人惊叹的工作,”阿萨尔说。肯塔基大学莱克星顿分校的计算机科学家布伦特·西尔斯和他的同事在维苏威挑战赛参与者的帮助下,正在解决一项看似不可能完成的任务——阅读完全看不见的文本。
阅读赫库兰尼姆古卷需要克服两个大问题。首先,这些脆弱的古卷无法展开。为了看到古卷内部,西尔斯花了数年时间开发“虚拟展开”技术,该技术需要对古卷的内部结构进行高分辨率计算机断层扫描 (CT),精心手工绘制横截面每一帧中可见的表面,然后使用算法将表面展开成平面图像。2015 年,研究人员使用这项技术阅读了以色列恩基底一卷烧焦的、无法打开的古卷内部的完整文本,这卷古卷可追溯到公元三世纪左右,结果发现它来自圣经的《利未记》第 11章。
隐基底卷轴有五圈,而赫库兰尼姆卷轴则每圈都有数百圈,薄如丝绸。为了获取极高分辨率的 CT 数据,团队将几卷卷轴运送到牛津附近的钻石光源粒子加速器。隐基底卷轴和其他后期作品的墨水往往含铁,在 CT 扫描中会发出明亮的光芒,而赫库兰尼姆卷轴的抄写员则使用碳基墨水,这种墨水在扫描中是看不见的,因为它的密度与它所处的纸莎草纸相同。西尔斯和他的团队意识到,虽然他们无法直接看到墨水,但他们也许能够检测到它的形状。如果裸露的纸莎草纤维的表面纹理与涂有墨水的纤维表面纹理存在细微差别,也许他们可以训练神经网络来发现这种差别。
2019 年,英国钻石光源同步加速器扫描赫库兰尼姆古卷残片。图片来源:Geoff Caddick/AFP
对于西尔斯的小团队来说,这项工作太过繁重,因此他们于 2023 年 3 月与硅谷企业家纳特·弗里德曼 (Nat Friedman) 合作,发起了“维苏威挑战赛”,该挑战赛提供了巨额现金奖励。西尔斯和他的同事发布了卷轴表面的扁平图像,并要求参赛者训练神经网络来寻找墨水。超过 1,000 个团队参赛,每天都有数百人在比赛的 Discord 频道上讨论进展。2024 年 2 月颁发了一项大奖:计算机科学专业的学生尤素夫·纳德 (Youssef Nader)、卢克·法里托 (Luke Farritor) 和朱利安·希利格 (Julian Schilliger) 因制作了 16 列清晰易读的文本而共同获得了 70 万美元的奖金。
获胜团队使用了 TimeSformer,这是通常用于视频的变换器模型的较新变体,可分别处理空间和时间维度。Vesuvius 团队使用它来将纸莎草纸的深度维度与其表面外观分开。Nicolardi 和她的同事随后将揭示的文本鉴定为来自之前未知的希腊哲学关于音乐、快乐和感觉的著作,可能是伊壁鸠鲁哲学家 Philodemus 所著。她说,研究它是“神奇的”。
2024 年 2 月的维苏威火山挑战赛获胜者在这本烧焦的赫库兰尼姆古卷中发现了近 16 列希腊文字。图片来源:维苏威火山挑战赛
从那时起,在纸草学家的帮助下,参赛者一直在努力改进他们的墨水检测算法。与此同时,西尔斯的团队正在扫描更多的卷轴,并希望机器学习可以加快虚拟拆卷步骤。他说,这是目前限制参赛者必须处理的数据的瓶颈。他乐观地认为,人工智能驱动的拆卷技术将及时面世,让阅读 90% 的四卷卷轴的人赢得 2024 年 20 万美元的大奖。“一旦你实现了自动化,你基本上就可以规模化了,”西尔斯在谈到拆卷技术时说。“我们正处于这个边缘。”
事实上,西尔斯想要读完整个图书馆。赫库兰尼姆有数百卷未打开的卷轴,大部分收藏在那不勒斯,但也收藏在巴黎、伦敦和牛津。“对于纸草学家来说,这将是他们一个世纪以来从未见过的古代世界新文本,”他说。
这种方法还能打开其他无法接触的资料来源,西尔斯称之为“隐形图书馆”。这些资料包括隐藏在中世纪书籍封面或古埃及木乃伊包裹物内的文本,对于这些资料,“它们就在这里,我们拿着实物,但读不懂上面的文字”。该团队已经从华盛顿特区史密森尼博物馆收藏的一本未打开的埃及卷轴中获取了数据,并正在讨论分析公元七世纪在火灾中被烧毁的约旦佩特拉纸莎草纸。
此外,一些考古学家认为,赫库兰尼姆别墅图书馆的大部分藏书仍埋在地下。如果真的能发掘出来,还能发现数千卷古卷。西尔斯说,阅读所有古卷将是“人类历史上对古代世界最大的发现”。“现在,我们掌握了技术。”
04
信息洪流
即使只揭示四卷古卷中的文本,对纸草学家来说也是一个巨大的挑战。“我们要阅读 400 列希腊文本,”尼科拉迪说。“我们需要更多的资金来做这件事,因为没有足够的纸草学家。”西尔斯指出,传统上,纸草学“不是一种合作文化”,但“我们很快就会开始产生比纸草学界所能处理的更多的文本”。这引发了一些问题,例如谁应该有权访问数据,谁将监督结果的发布。“我们可能会创建一个比现在的社区大得多的全球社区。”
如果大量新文本突然可供非专业人士使用人工智能工具进行研究,那么准确性和可复制性也令人担忧。例如,可能会出现幻觉,神经网络会产生虚假结果。西尔斯和其他人强调,需要与人文学科专家和计算机科学家组成多学科团队。另一个保障措施是将所有数据开源——原始文本和扫描件,以及用于分析它们的训练集和算法——西尔斯称之为数字出处链。
“我们必须建立学术、文化和法律机构,”牛津大学博德利图书馆馆长理查德·奥文登 (Richard Ovenden) 表示,该图书馆收藏了数本赫库兰尼姆古卷。但他辩称,任何担心人工智能挑战传统学术和专业知识的担忧都是没有根据的。“人工智能正在为纸草学家提供他们原本无法获得的数据,”他说。“这让他们的工作比以往任何时候都更加重要。”
其他领域也面临着类似的变化。德国慕尼黑路德维希马克西米利安大学的古代近东文学专家 Enrique Jiménez 与伦敦的大英博物馆合作,拍摄了 25,000 块楔形文字巴比伦泥板(大部分可追溯到公元前一千年下半叶),将这些文本开放给人工智能,最近又获得了拍摄另外 30,000 块泥板的资金。到目前为止,全球约有 100,000 块泥板已被数字化,其中约有 500,000 块泥板静静地躺在博物馆里,通常未经阅读。
该团队正在开发神经网络,以从照片中识别楔形文字符号并确定其时代。一旦文本被音译,就会使用更简单的机器学习技术来识别同一作品的重叠片段。该项目名为“残片集”,已发现《吉尔伽美什史诗》约 20 行新诗句,以及 30 份之前未知的巴比伦城赞美诗副本。“这真是太了不起了,”希门尼斯说。“在残片集之前,要找到这么多手稿需要几十年的时间。”
在巴比伦晚期泥板碎片上发现了一首此前未知的《巴比伦颂歌》的诗句。图片来源:大英博物馆受托人
他说,潜在的信息洪流令人兴奋,但也“令人生畏”。“我认为在未来 10 年或 20 年内,我们应该把一切都数字化。可用信息源的数量将呈指数级增长。”
05
提出新问题
这种飞跃可能会为利用人工智能了解古代世界开辟新途径。通过探索前所未有的大量数字化文本档案,研究人员不仅可以更好地研究个别文本,还可以对产生这些文本的社会提出更大的问题。
“我们必须改变思维方式,”尼科拉迪预测道。“这不仅关乎文本,还关乎整个文化。”
这一转变已经开始。在韩国,一些团队不是通过阅读汉字档案来挖掘它们,而是让人工智能模型仔细阅读原文,找出政治趋势和联系。去年 8 月,朴在曼谷举行的计算语言学协会年会上报告说,他能够使用这项技术识别朝鲜王朝各位国王的统治风格。例如,1495 年至 1506 年间在位的臭名昭著的独裁者燕山君,在其统治期间,其专制行为急剧增多,朴认为这“反映出他已陷入暴政”。相比之下,1623 年至 1649 年间在位的仁祖专制程度较低,始终遵循官员的建议。
研究人员也越来越多地将任务合并起来,并将数据集纳入更大的模型中。对于赫库兰尼姆古卷,Seales 希望利用 AI 为纸草学家提供建议,以填补抄写文本中的空白。不同的地理区域和时间段也可以连接到更大的系统中,以得出更广泛的见解并在数据集之间应用经验教训。一个用 104 种现代语言(包括希伯来语和阿拉伯语)训练的模型在翻译古美索不达米亚语言阿卡德语(希伯来语和阿拉伯语源于该语言)方面表现出色12。Cho 正在致力于将日本、韩国、中国和越南使用汉字的语言联系在一起。然而,他认为最终这些见解可能会惠及全球。他说,最终目标是“建立一个能够利用所有这些跨越时空的联系的系统”。
Bak 希望此类研究能够超越简单的数据挖掘。到目前为止,机器学习已用于观察有趣的模式和数字趋势,但随着进一步的训练,他希望类似聊天机器人的生成式人工智能工具能够对历史资料进行积极的推理和对话,“从而生成新的伪但有趣的数据”。
想象一下,如果 ChatGPT 这样的聊天机器人能够接受大量新阅读文本的训练,那会怎样。将来,如果我们想知道古希腊人、韩国人或巴比伦人的想法,也许我们只需询问即可。
往期推荐