AI能成为历史学家吗?普林斯顿大学推出HistAgent

2025-06-14

在科技飞速发展的当下,人工智能已广泛应用于自然科学领域,成为科研的得力助手。然而,当谈及承载人类文化与历史记忆的人文学科时,AI 的表现却显得力不从心。


历史学凭借其海量数据、多元史料类型及复杂的跨文化、跨时空特性,成为检验 AI 深度认知能力的绝佳试验场。如今,普林斯顿大学 AI 实验室携手复旦大学历史学系,推出了全球首个聚焦历史研究能力的 AI 评测基准 ——HistBench,以及深度嵌入历史研究场景的 AI 助手 ——HistAgent,为 AI 在人文学科的发展带来曙光。


1.jpg

论文地址:http://arxiv.org/abs/2505.20246

代码链接:

https://github.com/CharlesQ9/HistAgent


HistBench:历史领域评测的开创之举


HistBench 作为全球首个历史领域评测基准,意义非凡。其共收录 414 道由历史学者撰写的研究问题,涵盖 29 种古今语言,横跨全球多文明历史演化脉络。这些问题的诞生历经三轮严格筛选:从全球征集的数千道题目中初筛并标准化,经大模型初步预判剔除低难度问题,最终由历史学专家复核校正,确保其研究价值与挑战性。


2.jpg


HistBench 的诞生打破了传统 AI 测评体系的局限,该体系多由理工科主导,缺乏人文领域的多样性与精细化设计。HistBench 强调方法论挑战与推理深度,着重评估 AI 在处理破损手稿、残缺碑铭、古地图、模糊音频等复杂史料时的表现。其全面覆盖了历史研究的广度与深度,包括多语言、多模态史料,且问题精细分级,从基础史料读取到跨学科深度分析均有涉及。


在历史研究的多维度覆盖上,HistBench 涵盖 20 多个历史区域、36 个子领域,如古典时代研究、史学史与史学理论、全球史等。难度分层设计精细,分为基础、进阶与挑战三级,模拟真实历史研究挑战。 Level 1 聚焦基本信息检索提取;Level 2 在材料处理或逻辑推理上具有一定难度;Level 3 则涉及小语种语言读取、多模态史料处理和跨学科分析。


3.jpg


专为历史研究定制的智能助手


HistAgent 是为历史学研究量身打造的智能系统,深度嵌入历史学者的工作流程。其设计理念旨在填补 AI 在历史研究领域的空白,针对历史材料处理与学术推理能力进行优化。与通用大模型不同,HistAgent 是一套多智能体协作系统,能模拟历史研究流程,将复杂任务拆解为不同子任务,并调用合适工具完成多模态、多语言和跨学科指令。


HistAgent 的架构由多个核心模块组成。文本搜索模块可检索学术网站和历史资料,提供权威背景信息;OCR 模块能识别手稿、碑铭和古地图等文档,借助 Transkribus 平台提升识别准确率;翻译模块支持多种语言互译,包括古典与小众语言,结合语境优化译文;图像分析模块可进行图片反向搜索、文物识别等,解析历史图像材料;音频处理模块支持处理历史演讲和访谈记录等音频材料;视频分析模块能处理各类影像视频材料,抽帧分析场景辅助理解历史事件;文献搜索与文件处理模块则方便处理多种格式的研究资料和历史材料。


4.jpg


这一切都依赖于中央调度模块(Manager Agent)的协调,它根据任务需求智能判断调用子模块的范围和顺序,整合多模态结果,输出符合历史学科规范的完整回答。在测试中,HistAgent 展现出显著优势。在 HistBench 上,其 pass@2 达到 36.47%,远超 GPT - 4o 的 18.60%。在 HLE 历史子集中,pass@1 为 28.57%,pass@3 达 42.86%,均高于其他模型。即便在 GAIA 综合性多模态任务上,也保持了 60.00% 的 pass@1 成绩。


5.jpg


AI 与历史融合的重大意义


HistBench 和 HistAgent 的发布,是 AI 历史推理领域的重要突破。它们为 AI 处理复杂历史问题提供了系统性基准与工具框架,开辟了评估和提升 AI 在人文学科能力的新路径。这不仅是 AI 技术的发展,更是 AI 与人文学科共塑认知边界的尝试。


6.jpg
7.jpg


尽管目前 AI 还未达到完全成为历史学家的程度,但 HistBench 和 HistAgent 的出现为探索历史提供了新钥匙。它们的意义在于回应科技与人文的关系议题,勾勒出 AI 参与人类文明记忆构建的无限可能。未来,随着题库的扩展和 HistAgent 各模块能力的升级,其有望成为历史学家可信赖的研究伙伴,与史学前沿共同进化,推动 AI 在人文学科的更深入发展,开启人文研究的新纪元。


 往期推荐 

欧洲人工智能科学家安杰伊・斯科隆当选学院学术委员

又是一年毕业季,AI 检测风暴下的学术困境与突围

Science 顶刊发文:人工智能与社会科学研究的变革

【成员作品】《从复古经济学到制裁经济学:非常规经济学论文集》(终章)