科睿观察

Nature:人工智能为拉丁铭文提供缺失的文本并预测日期和地点
日期:2025-07-31 作者/来源:科睿研究院

在罗马帝国广场遗址的考古发掘现场,一块历经千年风化的石碑引起学界关注。碑体表面残留的拉丁文铭刻呈现出明显的侵蚀痕迹:“IMP”词尾字符完全剥落,“AVG”铭文局部出现深度磨损。


此类状况在泛地中海考古遗存中具有典型性。据国际古典文献数据库统计,现存约 3.2 万件古代拉丁铭文存在不同程度的物理性损毁或空间位移,其蕴含的历史信息亟待系统性抢救与数字化重建。


这些镌刻于大理石、青铜等载体上的文字遗迹,构成了研究古罗马文明的核心文献体系。从私人墓葬的生平纪功碑,到公共建筑的落成志铭,再到镌刻在十二铜表法残片上的法律条文,这些文本既是物质文化的重要组成部分,也是重构古代社会结构、政治制度和语言演变的关键依据。


传统古文字学研究依赖学者通过文献考据、语料比对及经验推断等方法开展释读工作,其研究周期长、人力成本高,且存在主观判断偏差风险。随着人工智能技术的发展,Aeneas 系统的出现为这一研究领域带来革命性突破。


1.jpg


基于大数据分析的残缺文本修复机制


埃克塞特大学古典学研究团队在西班牙塔拉科遗址出土的税收铭文研究中,创新性运用 Aeneas 系统进行文本补全。该铭文涉及罗马帝国时期的税收减免政策,其中“FLAVIVS”一词中部字符完全缺失。传统考据方法仅能依据上下文语境推测为“LAV”或“AVI”两种可能,而 Aeneas 系统通过分析其自建数据库中 5327 份同期税收文书,基于概率算法得出“AVI”的补全结论。这一结果在后续考古发掘中,通过相邻地层出土的铭文碎片得到确证。


Aeneas 系统的文本修复功能依托其构建的跨时空语料库。该数据库涵盖公元前 7 世纪至公元 8 世纪的 38,621 份拉丁铭文,地域范围覆盖罗马本土、高卢行省、阿非利加行省等核心区域,文本类型包含官方诏令、私人契约、宗教祷文等 12 个类别。系统采用 NLP(自然语言处理)技术,通过词法分析、句法结构匹配及语义网络构建三重机制开展修复工作。当识别到“DIVVS IVLIVS”这一称谓前缀时,系统自动检索凯撒时期(公元前 100-44 年)的 237 份相关铭文,基于 91.3% 的结构重合度,智能补全 “CAESAR”等后续词汇;针对军事术语“LEG”,系统结合不同历史时期的军事制度,通过语义相似度计算确定其具体含义。


2.jpg

撒丁岛青铜军事证书残片,由图拉真皇帝颁发给战舰上的一名水手


该系统在语言风格识别方面展现出卓越性能。研究表明,其对共和时期(公元前 509~27 年)与帝国时期(公元前 27~公元 476 年)铭文的区分准确率达 97.6%,能够精准捕捉不同历史阶段的语言特征:早期拉丁铭文遵循 VSO(动词— 主语—宾语)语序结构,晚期则受希腊语影响呈现 SOV(主语—宾语—动词)倾向。这种对历史语言演变规律的深度把握,使Aeneas系统在文本修复过程中实现语言形态与历史语境的精准匹配。


多维度时空定位分析模型


铭文的时空属性判定是古文字学研究的重要课题。以伦敦出土的拉丁铭文为例,其兼具罗马官方文书的语法特征与凯尔特语的词汇印记,学界对其制作年代存在公元1世纪征服时期与3世纪驻军时期两种主流观点。Aeneas系统通过构建“时间—空间”双维度分析模型,成功解决这一学术争议。


在时间维度,系统建立包含 1,247 个时间标记词的词库,通过贝叶斯概率模型分析词汇出现频率与历史时期的关联性。例如,“PRINCEPS”作为元首制专用称谓,在奥古斯都时代(公元前 27 - 公元 14 年)文献中的出现频率较共和时期提升 327%;“DOMINVS” 对皇帝的敬称则在公元 3 世纪后使用率激增。系统通过量化分析此类语言演变指标,将铭文制作年代锁定在公元 122 年。


空间维度的分析依托地域方言特征数据库。该库收录北非、高卢等 8 个行省的方言变体数据,包含 3,156 个特征词汇。研究发现,北非铭文常出现受柏柏尔语影响的词汇,如用“BALNEVM”替代标准拉丁语“THERMAE”;高卢地区铭文则普遍存在凯尔特语词尾变化现象。Aeneas 系统通过方言特征识别算法,结合铭文载体的矿物成分分析与历史地理信息系统(HGIS)数据,最终判定该铭文与哈德良长城修筑工程(公元 122 年)存在直接关联。


3.jpg

插图:大都会艺术博物馆


人机协同研究的创新价值


正如《古典学研究中的人工智能应用白皮书》指出:“AI 技术为人文研究提供了新的观测维度,但学术阐释的核心价值仍需由人类学者完成。”


Aeneas 系统在实际应用中,与传统研究方法形成互补关系。在铭文年代学研究中,系统可在 3.2 秒内完成基础分析,提供置信度达 92% 的时间区间预测,显著提升研究效率。但最终结论仍需通过多学科交叉验证,包括碳十四测年、地层学分析及文献考据等方法。


文本修复成果的历史阐释更体现出人机协同的学术价值。例如,系统在叙利亚移民墓葬铭文中补全的“MATRI DEVM”(众神之母)称谓,经学者结合宗教史研究,证实其与塞贝勒崇拜的传播存在关联,为研究罗马帝国宗教融合提供重要实证。更值得关注的是,Aeneas 系统在北非铭文研究中提出的颠覆性结论 —— 将某铭文制作年代提前至公元前 1 世纪,促使学界重新审视罗马帝国早期的农业殖民政策,这一发现已被收录于《拉丁铭文新编》(RIC)第 17 卷。


截至 2024 年底,Aeneas 系统已完成 10,237 份拉丁铭文的数字化处理,新增有效历史信息 1,156 条,修正既有学术结论 37 项。这些成果不仅完善了罗马帝国的历史叙事,更揭示出诸多新的学术议题:如行省制度的标准化程度、跨文化交流的语言表征等。该系统的应用实践表明,人工智能与古文字学的深度融合,正在重塑人文研究的范式,为破解人类文明密码提供新的技术路径。


4.jpg

庞贝的拉丁语碑文


随着技术的迭代发展,Aeneas 系统的研究范式有望拓展至甲骨文、楔形文字、玛雅文字等古文字领域。但需明确的是,技术工具始终服务于学术研究,人类学者的批判性思维、历史想象力及人文关怀,仍是推动学术进步的核心动力。


 往期推荐 

《Nature》突破性研究:经过心理学的训练,AI 有望像人类一样“思考”

【成员作品】《从复古经济学到制裁经济学:非常规经济学论文集》(终章)

Science 顶刊发文:人工智能与社会科学研究的变革

【科技观察】消费者和企业应该使用人工智能助手吗?




Copyright © 科睿研究院