2026年4月1日,国际顶级期刊《自然》(Nature)发表多篇论文,公布了美国国防部高级研究计划局(DARPA)主导的“开放研究与证据的系统化信心”(SCORE)项目成果。该项目耗时7年,对3900篇社会科学论文进行全面分析,得出一个令人不安的结论:独立重复实验时,只有半数研究结果能得到验证。
这意味着,每两篇已发表的社会科学论文中,就有一篇的核心结论可能站不住脚。那些被我们作为“学术依据”“决策参考”的研究,可能只是一次偶然的数据分析,或是不够严谨的研究过程的产物。事实上,“可重复性危机”并不是第一次被关注,10多年来,研究人员一直关注科学成果的可靠性,发现实验无法重复的现象,不仅存在于社会科学领域,在生物医学等领域也很常见。
SCORE项目的特点是,它是目前同类研究中规模最大、覆盖最广、耗时最长的一次,有865名研究人员参与,对62种期刊上、涵盖经济学、教育学、心理学、社会学等多个核心领域的论文进行全面审查,研究结果的说服力远高于以往的小规模研究。
斯坦福大学元科学家约翰·约安尼迪斯(John Ioannidis)评论称,SCORE项目的规模和广度令人印象深刻,但结论并不意外,因为这和之前小规模研究发现的问题一致。美国开放科学中心(COS)的研究负责人蒂姆·埃林顿(Tim Errington)则强调,这一结果不是对社会科学研究的全盘否定,“这并不意味着科学研究的质量低下”,多数情况下,问题不在于学术不端,而在于研究过程中细节缺失、数据不透明。
这场历时7年的研究,目的不是揭露丑闻,而是正视问题:当半数研究无法复制,社会科学的可信度该如何保障?科学研究的初心该如何坚持?
在SCORE项目启动前,关于社会科学研究可重复性的质疑一直存在。2016年,《自然》杂志对1576名科研人员进行调查,结果显示,70%的科学家无法复现别人的实验,50%的科研人员甚至无法重复自己之前发表的研究成果。这些零散的调查结果,没能形成系统性结论,也难以引起学界和公众的足够重视,毕竟没有足够大的样本量和全面的覆盖范围,任何质疑都可能被视为“个别案例”“偶然现象”。
为了弄清楚社会科学研究的可靠性真相,美国国防部高级研究计划局(DARPA)于2019年启动SCORE项目,最初目的是研发自动化技术,为军方应用社会科学研究成果提供可靠参考,最终成为覆盖全球社会科学领域的全面审查。该项目聚集了全球865名研究人员,涵盖社会科学、计算机科学、统计学等多个领域,形成跨学科研究团队,其协作规模和研究深度,在元科学(研究科学本身的科学)领域是前所未有的。
研究团队经过反复筛选,确定了3900篇纳入分析的论文,这些论文发表于2009年至2018年,来自62种核心期刊,覆盖犯罪学、经济学、教育学、金融学、心理学、政治学、社会学等12个社会科学核心领域,样本涉及数十个国家,保证了研究的代表性和广泛性。与以往的小规模验证不同,SCORE项目没有局限于单一学科或期刊,而是尽量全面反映社会科学研究的整体情况,避免因样本偏差导致结论不准确。
为确保检验的科学性和严谨性,研究团队制定了明确的检验标准,从三个核心维度全面评估每篇论文的可信度,分别是可复现性、稳健性和可复制性。这三个维度看似相近,实则代表不同的研究严谨性标准,共同构成衡量科学研究可靠性的三个关键指标。可复现性,指使用与原始研究完全相同的数据和分析方法,其他研究者能否得出相同结果;稳健性,指对同一批数据采用不同但合理的分析方法,能否得出一致结论;可复制性,指研究者从头开始重复整个实验,重新收集数据、分析数据,能否得到与原始研究一致的结果。

图自unsplash
这三个维度的检验层层递进、各有侧重,从“重复分析”到“方法验证”再到“完整复刻”,检验难度逐步提高,全面排查研究过程中可能存在的问题。SCORE项目研究人员表示,设置这三个维度,是因为以往研究往往只关注其中一个方面,难以全面反映研究的可靠性——有些论文看似能复现结果,却经不起不同分析方法的检验;有些论文方法稳健,却无法在独立重复实验中得到相同结论。只有通过这三个维度的检验,才能准确判断一篇研究论文的结论是否可靠。
七年时间里,研究团队克服了很多困难,包括海量论文的筛选与整理、实验数据的追溯与验证、不同学科研究方法的适配与统一、跨团队的协作与沟通,每个环节都耗时费力。尤其是在数据追溯方面,很多论文没有公开原始数据和分析代码,研究人员不得不通过各种渠道联系论文作者,甚至需要重新创建原始数据、猜测实验程序,增加了研究的难度。也正因为这份严谨和坚持,SCORE项目的研究结果具有很高的可信度,成为推动全球社会科学学术改进的重要依据。
865名研究人员历时七年,完成了对3900篇论文的三个维度检验,相关数据公之于众后,清晰展现了社会科学研究可信度的真实情况。三个维度的检验结果不同,但都指向一个核心问题:社会科学研究的可重复性,远低于预期,每个维度暴露的问题,都值得学界重视。
可复现性是最基础的检验维度,主要考察研究过程的透明度。如果一篇论文的方法描述清晰、数据公开完整,其他研究者就能按照相同步骤复现其结果;如果方法模糊、数据缺失,复现就会失败。SCORE项目研究人员选取600篇论文进行可复现性检验,发现只有145篇论文提供了足够的细节和数据,能让研究人员完整尝试复现,其余近八成论文,要么没有公开原始数据,要么没有详细描述分析方法,甚至有些论文的实验步骤都不清晰。
更值得关注的是,即便在这145篇提供完整细节的论文中,也只有53%的结果能被精确复现。蒂姆·埃林顿解释,很多复现失败不是因为原始研究有错误,而是因为SCORE研究人员需要猜测实验程序,或重新创建原始数据,难免出现偏差。
他强调,解决可复现性偏低的关键,是更开放地共享数据、更透明地说明研究方法——如果每篇论文都能像说明书一样,清晰呈现数据、方法和实验步骤,复现成功率会大幅提高。此外,有研究显示,所有纳入检验的论文中,仅三分之一公开了支撑结论的核心数据与分析代码,这部分论文的复现成功率,远高于未公开数据的论文。

图自unsplash
稳健性检验主要考察研究结论的“抗干扰能力”。一篇可靠的研究论文,结论不应依赖单一的分析方法,采用其他合理的分析方式,也应得出相似结论。SCORE项目选取100篇论文进行稳健性检验,邀请多个独立团队重新分析这些论文的数据,结果显示,约四分之三的论文通过检验,结论在不同分析方法下保持一致。这个结果看似较好,但其中隐藏的问题也不能忽视。
在稳健性检验中,有2%的案例出现了意外情况:新的分析方法得出了与原始论文完全相反的结论,这不是细节上的差异,而是直接推翻了原始研究的核心观点。蒂姆·埃林顿对此表示担忧,他举例说,有些研究通过某种数据分析,得出“某一政策能有效降低犯罪率”的结论,但采用另一种同样合理的分析方法后,却发现该政策不仅无效,还可能加剧犯罪率。
这样“方法不同、结论反转”的现象说明,很多社会科学研究的结论比较“脆弱”,过度依赖单一分析方法,可能导致结论失真。为解决这一问题,学界正在推广“多元宇宙分析”方法,通过对同一数据进行多种合理分析,让研究人员在发表论文前,了解不同方法对结论的影响,从而提高研究的稳健性。这种方法的核心作用,是判断研究结论的脆弱性,避免因单一分析方法导致的误判。
可复现性和稳健性主要检验“研究过程”,可复制性则是对“研究结论”最严格的检验。它要求研究人员从头开始,重新设计实验、收集数据、进行分析,完全独立于原始研究,看能否得到相同结论。该检验方式最耗时、最费钱,也最能反映研究结论的可靠性,因为它排除了原始数据、分析方法等因素的干扰,只关注结论本身是否具有普遍性。
SCORE项目重点对164项研究进行可复制性检验,这些研究均来自核心期刊,被视为社会科学领域的“代表性成果”。但检验结果并不理想:只有49%的研究在统计学意义上具有可复制性,也就是说,超过一半的“代表性成果”,在独立重复实验中无法得到验证。
这一数据和心理学等单个领域的早期研究结果基本一致,说明可重复性危机不是某一个学科的个别问题,而是整个社会科学领域的普遍困境。此外,即便成功复制的研究,其效果量也普遍低于原始研究,平均仅为原始研究的75%,而复制失败的研究,效果量接近0%。
三个维度的检验结果,清晰展现了社会科学研究的可信度现状:可复现性不足、稳健性有隐患、可复制性偏低。这些数据不是否定社会科学研究,而是一份客观的“诊断报告”,说明社会科学研究在严谨性、透明度方面,还有很大的改进空间,每个暴露的问题,都是推动学科进步的机会。
SCORE项目的研究结果公布后,外界出现了很多质疑:为什么半数社会科学研究无法复制?是科研人员学术不端、刻意造假吗?还是社会科学本身“不够科学”?事实上,答案比想象中复杂:学术不端确实存在,但不是主要原因;社会科学的研究特性有一定影响,但更多问题出在研究生态和学术规范上。要解决可重复性危机,首先要认清问题根源,再寻找可行的解决办法。

图自unsplash
很多人看到“半数研究无法复制”,第一反应就是“科研造假”,但SCORE项目研究人员明确表示,学术不端行为虽然存在,但数量极少,不是导致复制失败的主要原因。蒂姆·埃林顿称,在检验过程中,发现的学术不端案例很少,绝大多数复制失败,都是因为“研究过程不透明”——论文没有提供足够的实验细节、原始数据不公开、分析方法描述模糊,导致其他研究者无法准确重复实验。这就像没有说明书的产品,即便拿到原材料,也无法正确组装,自然得不到相同的成品。
研究过程不透明的背后,是学术评价体系的偏差。长期以来,学界过度重视论文发表数量、期刊等级和引用率,却忽视了研究的严谨性和可重复性。对科研人员来说,发表一篇结论“惊人”的论文,比发表一篇严谨但结论平淡的论文,更容易获得认可、晋升和资助。
这样的导向导致很多科研人员在研究过程中,过度追求“显著结果”,甚至刻意选择有利于结论的分析方法,忽视了研究的客观性和严谨性。更值得注意的是,有研究显示,不可复制的研究论文,引用率反而比结果可靠的研究更高。《科学》杂志的一项研究表明,在分析样本中,不可复制的研究平均比可复制研究多被引用153次;发表在《自然》和《科学》上的社会科学研究,这一差距扩大到300次。更令人担忧的是,这些引用中,只有12%提到复制实验未能证实原始结论——学术界不仅没有有效约束不可靠的研究,反而在一定程度上“鼓励”了这类研究。
除了学术评价体系的偏差,社会科学的研究特性也增加了复制难度。和自然科学不同,社会科学的研究对象是“人”和“社会”,人的行为、社会现象具有很强的复杂性和不确定性,不同的时间、地域、样本群体,都可能导致研究结果出现差异。比如,一项关于“青少年心理健康影响因素”的研究,在某一地区的样本中,得出“家庭环境是主要影响因素”的结论,但在另一地区的样本中,可能发现“学校环境影响更大”。这种复杂性使得社会科学研究的复制难度远高于自然科学,但这并不意味着“无法复制”,更不能成为研究不严谨的理由。
面对可重复性危机,学界一直在寻找解决办法,AI技术的出现,为解决这一问题提供了新的可能。由于重复实验耗时费钱,开发自动化分析工具,成为SCORE项目的核心目标之一。这些工具可以预测一篇论文的可重复性,帮助科研人员、期刊编辑和资助机构快速判断研究的可信度,提高研究效率、节约资源。为实现这一目标,SCORE团队首先测试了人类预测可重复性的能力,采用两种策略:一种涉及在线市场,另一种基于结构化群聊和研究人员的独立评估,结果显示,这些方法的最高准确率为76%至78%,说明人类专家对研究可重复性的判断,有一定的可靠性。
随后,SCORE团队尝试用自动化工具预测论文可重复性,但初期尝试并不成功。美国开放科学中心的安德鲁·泰纳(Andrew Tyner)牵头开展了独立于SCORE的“预测可复制性挑战”项目,通过竞赛形式,测试包括大语言模型在内的计算工具的预测能力,获胜者可获得现金奖励。
去年10月的首轮竞赛中,10支使用AI工具的队伍,得分甚至低于随机猜测水平,让很多人对AI解决可重复性危机的可能性产生怀疑。但在上个月结束的第二轮竞赛中,表现最佳的AI模型准确率达到68.5%,虽然仍低于人类专家水平,但进步明显。目前,第三轮竞赛正在进行中,研究人员希望通过优化算法,进一步提高AI工具的预测准确率。
不过,蒂姆·埃林顿提醒,AI工具的进步虽然值得肯定,但距离实现“AI评估研究可信度”的目标还有很大差距。“这些结果令人鼓舞,表明AI工具终有一天会助力评估科学研究,但这些工具距离实现这一目标还很遥远——它们还差得远。”
社会科学研究的复杂性,不是算法能完全捕捉的,AI工具只能作为辅助手段,不能替代人类的判断和严谨的实验检验。除了探索AI工具,学界更呼吁推广“开放科学”理念。开放科学是一场全球运动,核心是透明度、共享和包容性,通过推动数据共享、方法公开、预注册研究计划等实践,让科学研究更透明、可检验、可重复。
关于开放科学的实践路径,学界已形成共识:科研人员应主动公开研究数据、实验代码和实验步骤,方便其他研究者复现和检验;期刊应完善审稿标准,将研究的可重复性、透明度作为重要审稿指标,拒绝方法模糊、数据不公开的论文;资助机构应调整资助导向,重点资助注重严谨性、推动开放科学的研究项目;高校和科研机构应加强对科研人员的培训,引导他们树立严谨治学的理念,重视研究的可重复性。只有整个学术生态得到改善,才能从根本上解决可重复性危机。

图自unsplash
此外,SCORE项目的研究结果,也引发了“社会科学是否是科学”的争议。美国全国步枪协会(NRA)旗下媒体直接将社会科学的研究危机与“政治偏见”挂钩,质疑社会科学的科学性。这种观点过于偏激,约翰·约安尼迪斯的评论更为客观:SCORE项目的结果虽然令人震撼,但并不意外,它只是用更大规模的数据,把学界早已知道的问题摆到了明面上。社会科学作为一门科学,核心价值是探索人类社会的规律,为社会发展提供参考,可重复性危机不是社会科学的“固有问题”,而是学科发展过程中出现的问题。任何一门科学的进步,都离不开自我纠错,正视问题,才能解决问题。
历时7年,865名研究者,3900篇论文,SCORE项目的研究结果,不是为了否定社会科学,而是为了让学界保持清醒。科学的本质,不是“一劳永逸的结论”,而是“不断质疑、不断验证、不断纠错”的过程。我们重视可重复性,不是吹毛求疵,而是因为只有能被重复的研究,才能成为可靠的知识,才能为社会发展、政策制定、个人决策提供有效参考。
对科研人员来说,SCORE项目的结果是警示,也是责任。学术研究不是“追求惊人结论”的游戏,而是“探索真相”的过程。每一个实验步骤的严谨,每一份数据的透明,每一种方法的规范,都是对科学的敬畏,也是对公众的负责。当更多科研人员主动公开数据、规范方法,当学术评价体系不再只看重“引用率”,当开放科学成为学界共识,可重复性危机就会逐步缓解,社会科学也会健康发展。
https://doi.org/10.1038/s41586-025-10078-y
https://doi.org/10.1038/s41586-026-10203-5
https://doi.org/10.1038/s41586-025-09844-9
https://doi.org/10.1038/s41586-026-10251-x
【本文中包含的图片均来源于网络,仅用于信息传播和新闻报道目的。我们尊重并保护所有版权拥有者的权利。若有任何版权问题,或版权拥有者不希望图片被使用,请与我们联系,我们将在收到通知后立即处理并删除相关图片。】